Búsqueda de Google abrumada por un ataque masivo de spam

Al parecer, Google está luchando por contener un ataque de spam que lleva días en curso.

Los resultados de búsqueda de Google se han visto afectados en los últimos días por un ataque de spam que sólo puede describirse como completamente fuera de control. Muchos dominios se clasifican para cientos de miles de palabras clave cada uno, una indicación de que la escala de este ataque podría alcanzar fácilmente millones de frases de palabras clave.

Actualizado:

Si actualmente busca en Google «piezas de automóvil usadas de Craigslist», todos los resultados entre los 20 primeros son spam, menos los dos primeros resultados de Craigslist.

– Lily Ray 😏 (@lilyraynyc) 20 de diciembre de 2023 December 20, 2023

Cómo se podrían manipular los algoritmos de Google

Los sitios de spam parecen estar aprovechando al menos tres ventanas de oportunidades que forman parte de cómo Google clasifica los sitios web. Estas oportunidades no son nuevas y los spammers las han estado aprovechando durante muchos años, pero no en la medida que lo han hecho últimamente.

Quizás la razón más importante del éxito del spam es que las consultas de búsqueda para las que se clasifican los sitios de spam tienen poca competencia, lo que facilita la clasificación.

Hay dos tipos de consultas de búsqueda de bajo volumen en las que los sitios de spam encuentran oportunidades.

Oportunidad 1 Algoritmo de búsqueda local: la búsqueda local es un tipo de búsqueda que se activa cuando las personas buscan cosas cercanas, como un restaurante o horarios de cine. Es un algoritmo más permisivo que permite que un restaurante local sin enlaces se clasifique.

Oportunidad 2 Palabras clave de cola larga: las palabras clave de cola larga son frases de consultas de bajo volumen, únicas que ocurren una vez al mes o una vez al año. En consecuencia, estas consultas tienen poca competencia, lo que facilita la clasificación.

Oportunidad 3 Muchos de los sitios de spam son nuevos. Los dominios han sido registrados dentro de las 24 a 48 horas anteriores a la clasificación.

Google otorga a los sitios nuevos un corto período de tiempo en el que obtiene el beneficio de la duda, mientras que el algoritmo de Google descubre el sitio durante un breve período de luna de miel en el que el sitio puede clasificarse para las consultas de búsqueda.

Muchos de los dominios solo se han registrado en las últimas 24 a 48 horas. Eso podría significar que esos dominios también están aprovechando esta pequeña ventana de oportunidad para colarse, clasificarse para millones de consultas de búsqueda y luego desaparecer.

Un empleado de Google describió por qué los sitios nuevos pueden clasificarse:

“In particular, with completely new websites, one of the difficulties that we have is we might not have a lot of signals for those websites so we have to make estimates.

And depending on how we make estimates, it can sometimes mean that in the beginning we show this website a little bit more visibly than like it turns out that the signals tell us in the end.

“En particular, con sitios web completamente nuevos, una de las dificultades que tenemos es que es posible que no tengamos muchas señales para esos sitios web, por lo que tenemos que hacer estimaciones.

Y dependiendo de cómo hagamos estimaciones, a veces puede significar que al principio mostramos este sitio web de forma un poco más visible de lo que resulta que las señales nos dicen al final.

Los enlaces ayudan a Google a encontrar los sitios de spam

Esto me llamó la atención recientemente a partir de una serie de publicaciones de Bill Hartzer (perfil de LinkedIn) donde publicó un gráfico de enlaces generado por la herramienta de vínculos de retroceso Majestic que exponía las redes de enlaces de varios de los sitios de spam. LinkedIn profile

El gráfico de enlaces que publicó mostró decenas de sitios web estrechamente interconectados entre sí, lo cual es un patrón bastante típico de las redes de enlaces spam.

Captura de pantalla de una red estrechamente interconectada

Google Search Overwhelmed By Massive Spam Attack

Bill y yo hablamos sobre los sitios de spam a través de Facebook Messenger y ambos estuvimos de acuerdo en que, aunque los spammers trabajaron mucho en la creación de una red de vínculos de retroceso, los vínculos en realidad no eran responsables de las altas clasificaciones.

Es probable que los enlaces estén ahí para ayudar a Google a encontrar los nuevos sitios de spam, rastrearlos y, finalmente, clasificarlos.

Bill dijo:

“This, in my opinion, is partly the fault of Google, who appears to be putting more emphasis on content rather than links.”

«Esto, en mi opinión, es en parte culpa de Google, que parece estar poniendo más énfasis en el contenido que en los enlaces».

Estoy 100% de acuerdo en que Google está poniendo más énfasis en el contenido que en los enlaces. Pero mi opinión es que los enlaces de spam están ahí para que el robot de Google pueda descubrir las páginas de spam e indexarlas, aunque sea solo por uno o dos días.

Una vez indexadas, es probable que las páginas de spam exploten lo que considero dos lagunas en los algoritmos de Google, de las que hablaré a continuación.

Spam fuera de control en las SERP de Google

Varios sitios clasifican frases de cola larga que son algo fáciles de clasificar, así como frases con un componente de búsqueda local, que también son fáciles de clasificar.

Longtail es un concepto que existe desde hace casi veinte años y posteriormente se popularizó con un libro de 2006 llamado The Long Tail: Why the Future of Business is Selling Less of More.

Los spammers pueden clasificar estas frases raramente buscadas porque hay poca competencia para esas frases, lo que facilita la clasificación.

Entonces, si un spammer crea millones de páginas de frases largas, esas páginas pueden clasificarse para cientos de miles de palabras clave todos los días en un corto período de tiempo.

Empresas como Amazon utilizan el principio de cola larga para vender cientos de miles de productos individuales al día, lo que es diferente a vender un producto cientos de miles de veces al día.

Eso es lo que están explotando los spammers: la facilidad para clasificar frases largas.

La segunda cosa que los spammers están explotando es la laguna inherente a la búsqueda local.

El algoritmo de búsqueda local no es el mismo que el algoritmo para clasificar palabras clave no locales.

Los ejemplos que han salido a la luz son variaciones de Craigslist y palabras clave relacionadas.

Algunos ejemplos son frases como piezas de automóvil de Craigslist, habitaciones en alquiler en Craigslist, venta de Craigslist por propietario y miles de otras palabras clave, la mayoría de las cuales no utilizan la palabra Craigslist.

La escala del spam es enorme y va mucho más allá de las palabras clave con la palabra «Craigslist».

Cómo se ve la página de spam

Es imposible ver cómo se ve la página de spam visitando las páginas con un navegador.

Intenté ver el código fuente de los sitios clasificados en Google, pero todos los sitios de spam redirigen automáticamente a otro dominio.

Luego ingresé la URL de spam en el verificador de enlaces del W3C para visitar el sitio web, pero el robot del W3C tampoco pudo ver el sitio.

Entonces cambié el agente de usuario de mi navegador para identificarme como Googlebot, pero el sitio de spam aún me redirigió.

Eso indicó que el sitio no estaba comprobando si el agente de usuario era el robot de Google.

El sitio de spam estaba buscando direcciones IP del robot de Google Si la dirección IP del visitante coincidía con la de Google, entonces la página de spam mostraba contenido al robot de Google.

Todos los demás visitantes fueron redirigidos a otros dominios que mostraban contenido incompleto.

Para ver el HTML del sitio web tuve que visitar con una dirección IP de Google. Entonces utilicé la prueba de Resultados enriquecidos de Google para visitar el sitio de spam y registrar el HTML de la página.

Le mostré a Bill Hartzer cómo extraer el HTML usando el probador de resultados enriquecidos e inmediatamente comenzó a twittear al respecto, jajaja. ¡Maldita sea!

Rich Results Tester tiene una opción para mostrar el HTML de una página web Así que copié el HTML, lo pegué en un archivo de texto y luego lo guardé como un archivo HTML.

Captura de pantalla de HTML proporcionada por la herramienta de resultados enriquecidos

Google Search Overwhelmed By Massive Spam Attack

Luego edité el archivo HTML para eliminar cualquier JavaScript y luego guardé el archivo nuevamente.

Ahora pude ver cómo se ve la página web en Google:

Captura de pantalla de la página web de spam

Screenshot of a spam webpage that ranks in Google

Un dominio se clasifica para más de 300.000 palabras clave

Bill me envió una hoja de cálculo que contenía una lista de frases de palabras clave que solo uno de los sitios de spam clasificó. Un sitio de spam, solo uno de ellos, obtuvo más de 300.000 frases de palabras clave.

Captura de pantalla que muestra palabras clave para un dominio

Image showing a closeup of a spreadsheet with keyword phrases on it

Había muchas frases de palabras clave de Craigslist, pero también había otras frases de cola larga, muchas de las cuales contenían un elemento de búsqueda local. Como mencioné, es fácil clasificar para frases de cola larga, fácil de clasificar para frases de búsqueda local y combinar los dos tipos de frases y es realmente fácil clasificar para estas frases de palabras clave.

¿Por qué funciona esta técnica de spam?

Como se mencionó anteriormente, la búsqueda local utiliza un algoritmo diferente al algoritmo no local. Por ejemplo, un sitio local no necesita muchos enlaces para clasificarse en una consulta de búsqueda. Las páginas sólo necesitan los tipos correctos de palabras clave para activar el algoritmo de búsqueda local y posteriormente clasificar.

El algoritmo de búsqueda local es diferente y más permisivo para que los sitios de tipo local puedan clasificarse. Los algoritmos de búsqueda locales son tan permisivos que un sitio escrito prácticamente en su totalidad en latín podría clasificarse para una frase como Rinoplastia Plano Texas.

Google conoce este problema de spam desde al menos el 19 de diciembre, tal y como reconoce en un tuit Danny Sullivan.

Sí, ya se lo pasé al equipo de búsqueda. Aquí hay un vistazo Y está siendo mirado pic.twitter.com/vJH3EisnXD pic.twitter.com/vJH3EisnXD

– Google SearchLiaison (@searchliaison) 19 de diciembre de 2023 December 19, 2023

Hay muchas maneras en que Google puede hacerlo, como por ejemplo ser más estricto y no permitir que los sitios en ciertos dominios se clasifiquen.

Imagen destacada de Shutterstock/Kateryna Onyshchuk

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales