Contenidos
Google revisó su documentación sobre rastreadores con una segunda lista de direcciones IP que corresponden a rastreadores que Google no controla.
Google actualizó su documentación sobre rastreadores y robots de Google para agregar una variedad de IP para bots activados por usuarios de productos de Google. Los nombres de los feeds cambiaron, lo cual es importante para los editores que incluyen en la lista blanca direcciones IP controladas por Google. El cambio será útil para los editores que quieran bloquear los raspadores que utilizan la nube de Google y otros rastreadores no asociados directamente con Google.
Nueva lista de direcciones IP
Google dice que la lista contiene rangos de direcciones IP que se han utilizado durante mucho tiempo, por lo que no son rangos de direcciones IP nuevos.
Hay dos tipos de rangos de direcciones IP:
- Rangos de IP iniciados por los usuarios pero controlados por Google y que se resuelven en un nombre de host de Google.com.
- Rangos de IP iniciados por los usuarios pero no controlados por Google y que se resuelven en un nombre de host gae.googleusercontent.com.
Las listas que corresponden a cada categoría ahora son diferentes.
Anteriormente la lista que correspondía a las direcciones IP de Google era esta: special-crawlers.json (resolviendo en gae.googleusercontent.com)
Ahora la lista de “rastreadores especiales” corresponde a rastreadores que no están controlados por Google.
“IPs in the user-triggered-fetchers.json object resolve to gae.googleusercontent.com hostnames. These IPs are used, for example, if a site running on Google Cloud (GCP) has a feature that requires fetching external RSS feeds on the request of the user of that site.”
“Las IP en el objeto user-triggered-fetchers.json se resuelven en los nombres de host gae.googleusercontent.com Estas IP se utilizan, por ejemplo, si un sitio que se ejecuta en Google Cloud (GCP) tiene una función que requiere recuperar fuentes RSS externas a petición del usuario de ese sitio».
La nueva lista que corresponde a los rastreadores controlados por Google es:
user-triggered-fetchers-google.json
“Tools and product functions where the end user triggers a fetch. For example, Google Site Verifier acts on the request of a user. Because the fetch was requested by a user, these fetchers ignore robots.txt rules.
Fetchers controlled by Google originate from IPs in the user-triggered-fetchers-google.json object and resolve to a google.com hostname.”
captadores-activados-por-usuario-google.json
“Herramientas y funciones del producto donde el usuario final activa una búsqueda Por ejemplo, Google Site Verifier actúa a petición de un usuario. Debido a que la recuperación fue solicitada por un usuario, estos recuperadores ignoran las reglas de robots.txt.
Los captadores controlados por Google se originan a partir de las IP en el objeto user-triggered-fetchers-google.json y se resuelven en un nombre de host de google.com”.
La lista de IP de Google Cloud y rastreadores de aplicaciones que Google no controla se puede encontrar aquí:
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json
La lista de IP de Google activadas por los usuarios y controladas por Google está aquí:
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json
Nueva sección de contenido
Hay una nueva sección de contenido que explica de qué se trata la nueva lista.
“Fetchers controlled by Google originate from IPs in the user-triggered-fetchers-google.json object and resolve to a google.com hostname. IPs in the user-triggered-fetchers.json object resolve to gae.googleusercontent.com hostnames. These IPs are used, for example, if a site running on Google Cloud (GCP) has a feature that requires fetching external RSS feeds on the request of the user of that site. ***-***-***-***.gae.googleusercontent.com or google-proxy-***-***-***-***.google.com user-triggered-fetchers.json and user-triggered-fetchers-google.json”
“Los captadores controlados por Google se originan a partir de las IP en el objeto user-triggered-fetchers-google.json y se resuelven en un nombre de host de google.com Las IP en el objeto user-triggered-fetchers.json se resuelven en los nombres de host gae.googleusercontent.com Estas IP se utilizan, por ejemplo, si un sitio que se ejecuta en Google Cloud (GCP) tiene una función que requiere recuperar fuentes RSS externas a petición del usuario de ese sitio. ***-***-***-***.gae.googleusercontent.com o google-proxy-***-***-***-***.google.com captadores activados por el usuario
Registro de cambios de Google
El registro de cambios de Google explicó los cambios de esta manera: changelog
“Exporting an additional range of Google fetcher IP addresses
What: Added an additional list of IP addresses for fetchers that are controlled by Google products, as opposed to, for example, a user controlled Apps Script. The new list, user-triggered-fetchers-google.json, contains IP ranges that have been in use for a long time.Why: It became technically possible to export the ranges.”
“Exportar un rango adicional de direcciones IP de búsqueda de Google La nueva lista, user-triggered-fetchers-google.json, contiene rangos de IP que se han utilizado durante mucho tiempo.
Por qué: Técnicamente fue posible exportar las gamas”.
Lea la documentación actualizada: Verifying Googlebot and other Google crawlers
Lea la documentación antigua: Archive.org – Verifying Googlebot and other Google crawlers
Imagen destacada de Shutterstock/JHVEPhoto
Leer el articulo original en Search Engine Journal.