Optimice su sitio para que Google encuentre su contenido más rápido e indexe su contenido, lo que podría ayudar a su sitio a obtener una mejor visibilidad y tráfico.
Internet es un universo virtual en constante evolución con más de 1100 millones de sitios web.
¿Crees que Google puede rastrear todos los sitios web del mundo?
Incluso con todos los recursos, el dinero y los centros de datos que tiene Google, ni siquiera puede rastrear toda la web, ni quiere hacerlo.
¿Qué es el presupuesto de rastreo y es importante?
El presupuesto de rastreo se refiere a la cantidad de tiempo y recursos que Googlebot gasta en rastrear páginas web en un dominio.
Es importante optimizar su sitio para que Google encuentre su contenido más rápido e indexe su contenido, lo que podría ayudar a su sitio a obtener una mejor visibilidad y tráfico.
Si tiene un sitio grande que tiene millones de páginas web, es particularmente importante administrar su presupuesto de rastreo para ayudar a Google a rastrear sus páginas más importantes y obtener una mejor comprensión de su contenido.
Google afirma que:
If your site does not have a large number of pages that change rapidly, or if your pages seem to be crawled the same day that they are published, keeping your sitemap up to date and checking your index coverage regularly is enough. Google also states that each page must be reviewed, consolidated and assessed to determine where it will be indexed after it has crawled.
Crawl budget is determined by two main elements: crawl capacity limit and crawl demand.
Si su sitio no tiene una gran cantidad de páginas que cambian rápidamente, o si parece que sus páginas se rastrean el mismo día en que se publican, es suficiente mantener su mapa del sitio actualizado y verificar la cobertura de su índice con regularidad. Google también establece que cada página debe revisarse, consolidarse y evaluarse para determinar dónde se indexará después de que se haya rastreado. keeping your sitemap up to date
El presupuesto de rastreo está determinado por dos elementos principales: el límite de capacidad de rastreo y la demanda de rastreo.
La demanda de rastreo es cuánto Google quiere rastrear en su sitio web Las páginas más populares, es decir, una historia popular de CNN y las páginas que experimentan cambios significativos, se rastrearán más.
Googlebot wants to crawl your site without overwhelming your servers. To prevent this, Googlebot calculates a crawl capacity limit, which is the maximum number of simultaneous parallel connections that Googlebot can use to crawl a site, as well as the time delay between fetches.
Googlebot quiere rastrear su sitio sin sobrecargar sus servidores Para evitar esto, Googlebot calcula un límite de capacidad de rastreo, que es la cantidad máxima de conexiones paralelas simultáneas que Googlebot puede usar para rastrear un sitio, así como el tiempo de demora entre las búsquedas.
Taking crawl capacity and crawl demand together, Google defines a site’s crawl budget as the set of URLs that Googlebot can and wants to crawl. Even if the crawl capacity limit is not reached, if crawl demand is low, Googlebot will crawl your site less.
Tomando la capacidad de rastreo y la demanda de rastreo juntas, Google define el presupuesto de rastreo de un sitio como el conjunto de URL que Googlebot puede y quiere rastrear. Incluso si no se alcanza el límite de capacidad de rastreo, si la demanda de rastreo es baja, Googlebot rastreará menos su sitio.
Estos son los 12 mejores consejos para administrar el presupuesto de rastreo para sitios grandes y medianos con 10k a millones de URL.
1 Determine qué páginas son importantes y cuáles no deben rastrearse
Determine qué páginas son importantes y qué páginas no son tan importantes para rastrear (y, por lo tanto, Google las visita con menos frecuencia).
Una vez que determine eso a través del análisis, puede ver qué páginas de su sitio vale la pena rastrear y qué páginas de su sitio no vale la pena rastrear y excluirlas del rastreo.
Por ejemplo, Macys.com tiene más de 2 millones de páginas indexadas.
Googlebot puede decidir que no vale la pena mirar el resto de su sitio o aumentar su presupuesto de rastreo. Asegúrese de que la navegación facetada y los identificadores de sesión: estén bloqueados a través de robots.txt Faceted
2 Administrar contenido duplicado
Si bien Google no emite una sanción por tener contenido duplicado, desea proporcionar a Googlebot información original y única que satisfaga las necesidades de información del usuario final y que sea relevante y útil. Asegúrese de estar utilizando el archivo robots.txt.
Google declaró que no usará ningún índice, ya que aún lo solicitará pero luego lo descartará.
3 Bloquee el rastreo de URL sin importancia usando Robots.txt y dígale a Google qué páginas puede rastrear
Para un sitio de nivel empresarial con millones de páginas, Google recomienda bloquear el rastreo de URL sin importancia mediante robots.txt.
Además, desea asegurarse de que Googlebot y otros motores de búsqueda permitan rastrear sus páginas importantes, directorios que contienen su contenido dorado y páginas de dinero.
4 Cadenas de redirección largas
Mantenga su número de redireccionamientos a un número pequeño si puede Tener demasiados redireccionamientos o bucles de redireccionamiento puede confundir a Google y reducir su límite de rastreo.
Google afirma que las cadenas de redireccionamiento largas pueden tener un efecto negativo en el rastreo.
5 Usar HTML
El uso de HTML aumenta las probabilidades de que un rastreador de cualquier motor de búsqueda visite su sitio web.
Si bien los robots de Google han mejorado en lo que respecta al rastreo e indexación de JavaScript, otros rastreadores de motores de búsqueda no son tan sofisticados como Google y pueden tener problemas con otros idiomas además de HTML.
6 Asegúrese de que sus páginas web carguen rápidamente y ofrezcan una buena experiencia de usuario
Haga que su sitio esté optimizado para Core Web Vitals.
Cuanto más rápido se carga su contenido, es decir, menos de tres segundos, más rápido Google puede proporcionar información a los usuarios finales. Si les gusta, Google seguirá indexando su contenido porque su sitio demostrará el estado de rastreo de Google, lo que puede hacer que su límite de rastreo aumente.
7 Tener contenido útil
Según Google, el contenido se clasifica por calidad, independientemente de la edad. Cree y actualice su contenido según sea necesario, pero no hay valor adicional en hacer que las páginas parezcan nuevas artificialmente al hacer cambios triviales y actualizar la fecha de la página.
Si su contenido satisface las necesidades de los usuarios finales y, por ejemplo, es útil y relevante, no importa si es antiguo o nuevo.
Si los usuarios no encuentran su contenido útil y relevante, le recomiendo que actualice y actualice su contenido para que sea nuevo, relevante y útil, y lo promocione a través de las redes sociales.
Además, vincule sus páginas directamente a la página de inicio, que puede verse como más importante y rastrearse con más frecuencia.
8 Cuidado con los errores de rastreo
Si ha eliminado algunas páginas de su sitio, asegúrese de que la URL devuelva un estado 404 o 410 para las páginas eliminadas de forma permanente. Un código de estado 404 es una señal fuerte para no volver a rastrear esa URL.
Sin embargo, las URL bloqueadas permanecerán en la cola de rastreo durante mucho más tiempo y se volverán a rastrear cuando se elimine el bloqueo.
Si su sitio tiene muchos códigos de estado de respuesta HTTP 5xx (errores del servidor) o los tiempos de espera de conexión indican lo contrario, el rastreo se ralentiza Google recomienda prestar atención al informe de estadísticas de rastreo en Search Console y mantener la cantidad de errores del servidor al mínimo. 5xx HTTP response status codes
Por cierto, Google no respeta ni se adhiere a la regla de robots.txt de «retraso de rastreo» no estándar.
Incluso si usa el atributo nofollow, la página aún se puede rastrear y desperdiciar el presupuesto de rastreo si otra página en su sitio, o cualquier página en la web, no etiqueta el enlace como nofollow.
9 Mantenga los mapas del sitio actualizados
Los mapas de sitio XML son importantes para ayudar a Google a encontrar su contenido y pueden acelerar las cosas.
Es extremadamente importante mantener actualizadas las URL de su mapa del sitio, usar la etiqueta
- Solo incluye las URL que deseas que los motores de búsqueda indexen.
- Solo incluya direcciones URL que devuelvan un código de estado 200.
- Asegúrese de que un solo archivo de mapa de sitio tenga menos de 50 MB o 50,000 URL, y si decide usar varios mapas de sitio, cree un mapa de sitio de índice que los enumere a todos.
- Asegúrate de que tu mapa del sitio esté codificado en UTF-8.
- Incluir enlaces a versiones localizadas de cada URL (Consulte la documentación de Google).
- Mantenga su mapa del sitio actualizado, es decir, actualice su mapa del sitio cada vez que haya una nueva URL o que se actualice o elimine una URL antigua.
10 Construya una buena estructura del sitio
Tener una buena estructura del sitio es importante para el rendimiento de SEO para la indexación y la experiencia del usuario.
La estructura del sitio puede afectar los resultados de las páginas de resultados del motor de búsqueda (SERP) de varias maneras, incluida la capacidad de rastreo, la tasa de clics y la experiencia del usuario.
Tener una estructura clara y lineal de su sitio puede usar su presupuesto de rastreo de manera eficiente, lo que ayudará a Googlebot a encontrar contenido nuevo o actualizado.
Recuerda siempre la regla de los tres clics, es decir, cualquier usuario debe poder pasar de cualquier página de tu sitio a otra con un máximo de tres clics.
11 Enlace interno
Cuanto más fácil sea para los motores de búsqueda rastrear y navegar por su sitio, más fácil será para los rastreadores identificar su estructura, contexto y contenido importante.
Tener enlaces internos que apuntan a una página web puede informar a Google que esta página es importante, ayudar a establecer una jerarquía de información para el sitio web determinado y puede ayudar a difundir la equidad de los enlaces en todo su sitio.
12 Supervisar siempre las estadísticas de rastreo
Siempre revise y supervise GSC para ver si su sitio tiene algún problema durante el rastreo y busque formas de hacer que su rastreo sea más eficiente.
Puede utilizar el informe Estadísticas de rastreo para ver si Googlebot tiene problemas para rastrear su sitio. Crawl Stats report
Si se informan errores o advertencias de disponibilidad en GSC para su sitio, busque instancias en los gráficos de disponibilidad del host donde las solicitudes de Googlebot excedieron la línea de límite roja, haga clic en el gráfico para ver qué URL estaban fallando e intente correlacionarlas con problemas en su
Además, puede usar la herramienta de inspección de URL para probar algunas URL en su sitio. URL Inspection Tool
Si la herramienta de inspección de URL devuelve advertencias de carga del host, eso significa que Googlebot no puede rastrear tantas URL de su sitio como descubrió.
Terminando
La optimización del presupuesto de rastreo es crucial para sitios grandes debido a su gran tamaño y complejidad.
Con numerosas páginas y contenido dinámico, los rastreadores de los motores de búsqueda enfrentan desafíos para rastrear e indexar de manera eficiente y efectiva el contenido del sitio.
Al optimizar su presupuesto de rastreo, los propietarios de sitios pueden priorizar el rastreo y la indexación de páginas importantes y actualizadas, asegurando que los motores de búsqueda gasten sus recursos de manera inteligente y efectiva.
Este proceso de optimización involucra técnicas como mejorar la arquitectura del sitio, administrar los parámetros de URL, establecer prioridades de rastreo y eliminar el contenido duplicado, lo que conduce a una mejor visibilidad del motor de búsqueda, una mejor experiencia del usuario y un mayor tráfico orgánico para sitios web grandes.
Más recursos:
Imagen destacada: BestForBest/Shutterstock
Leer el articulo original en Search Engine Journal.