Fuga de datos de Yandex: los factores de clasificación y los mitos que encontramos

Una mirada en profundidad a la fuga de factores de clasificación de Yandex, actualizaciones de algoritmos y anuncios relacionados de Dan Taylor, nuestro experto ruso en SEO.

Yandex es el motor de búsqueda con la mayor parte de la cuota de mercado en Rusia y el cuarto motor de búsqueda más grande del mundo.

El 27 de enero de 2023, sufrió lo que podría decirse que es una de las filtraciones de datos más grandes que ha sufrido una empresa de tecnología moderna en muchos años, pero es la segunda en menos de una década.

En 2015, un ex empleado de Yandex intentó vender el código del motor de búsqueda de Yandex en el mercado negro por alrededor de $30,000.

La filtración inicial en enero de este año reveló 1922 factores de clasificación, de los cuales más del 64 % figuraban como no utilizados o en desuso (reemplazados y es mejor evitarlos).

Esta fuga fue solo el archivo etiquetado como kernel, pero a medida que la comunidad de SEO y yo profundizamos más, se encontraron más archivos que combinados contienen aproximadamente 17,800 factores de clasificación.

Cuando se trata de practicar SEO para Yandex, la guía que escribí hace dos años, en su mayor parte, todavía se aplica.

Yandex, al igual que Google, siempre ha sido público con sus actualizaciones y cambios de algoritmos y, en los últimos años, cómo ha adoptado el aprendizaje automático.

Las actualizaciones notables de los últimos dos o tres años incluyen:

En una nota personal, esta fuga de datos es como una segunda Navidad.

Desde enero de 2020, administro un sitio web de noticias de SEO como un pasatiempo dedicado a cubrir el SEO de Yandex y buscar noticias en Rusia con más de 600 artículos, por lo que este es probablemente el evento principal del sitio de pasatiempos.

También he hablado dos veces en la conferencia de Optimización, la conferencia de SEO más grande de Rusia.

Esta también es una buena prueba para ver en qué medida las declaraciones públicas de Yandex coinciden con los secretos de la base de código.

En 2019, trabajando con el equipo de relaciones públicas de Yandex, pude entrevistar a los ingenieros de su equipo de búsqueda y hacer una serie de preguntas provenientes de la comunidad de SEO occidental más amplia.

Puede leer la entrevista con el equipo de Yandex Search aquí.

Si bien Yandex es conocido principalmente por su presencia en Rusia, el motor de búsqueda también tiene presencia en Turquía, Kazajstán y Georgia.

Se creía que la fuga de datos tenía una motivación política y las acciones de un empleado deshonesto, y contiene una serie de fragmentos de código del repositorio monolítico de Yandex, Arcadia.

Dentro de los 44 GB de datos filtrados, hay información relacionada con una serie de productos de Yandex, incluidos Search, Maps, Mail, Metrika, Disc y Cloud.

Lo que Yandex ha tenido que decir

Mientras escribo esta publicación (31 de enero de 2023), Yandex ha declarado públicamente que: Yandex has publicly stated

the contents of the archive (leaked code base) correspond to the outdated version of the repository – it differs from the current version used by our services

el contenido del archivo (base de código filtrado) corresponde a la versión desactualizada del repositorio; difiere de la versión actual utilizada por nuestros servicios

Y:

It is important to note that the published code fragments also contain test algorithms that were used only within Yandex to verify the correct operation of the services.

Es importante tener en cuenta que los fragmentos de código publicados también contienen algoritmos de prueba que se usaron solo dentro de Yandex para verificar el correcto funcionamiento de los servicios.

Por lo tanto, la cantidad de esta base de código que se usa activamente es cuestionable.

Yandex también ha revelado que durante su investigación y auditoría, encontró una serie de errores que violan sus propios principios internos, por lo que es probable que partes de este código filtrado (que están en uso actual) puedan cambiar en un futuro próximo.

Clasificación de factores

Yandex clasifica sus factores de clasificación en tres categorías.

Esto se ha descrito en la documentación pública de Yandex durante algún tiempo, pero creo que vale la pena incluirlo aquí, ya que nos ayuda a comprender mejor la fuga del factor de clasificación.

  • Factores estáticos: factores que están relacionados directamente con el sitio web (p. backlinks entrantes, enlaces internos entrantes, encabezados y proporción de anuncios).
  • Factores relacionados con la búsqueda del usuario: factores relacionados con la consulta del usuario (p. dónde se encuentra el usuario, el idioma de la consulta y los modificadores de intenciones).

Los factores de clasificación en el documento se etiquetan para que coincidan con la categoría correspondiente, con TG_STATIC y TG_DYNAMIC, y luego TG_QUERY_ONLY, TG_QUERY, TG_USER_SEARCH y TG_USER_SEARCH_ONLY.

Aprendizajes de fugas de Yandex hasta ahora

A partir de los datos hasta el momento, a continuación se presentan algunas de las afirmaciones y aprendizajes que hemos podido hacer.

Hay tantos datos en esta filtración que es muy probable que encontremos cosas nuevas y establezcamos nuevas conexiones en las próximas semanas.

Éstas incluyen:

  • En algún momento, Yandex utilizó TF*IDF.
  • Los enlaces de sitios web de alta autoridad tienen un impacto en las clasificaciones.
  • No hay nada nuevo que sugiera que Yandex puede rastrear JavaScript aún fuera de los procesos ya documentados públicamente.
  • Los errores del servidor y los errores 4xx excesivos pueden afectar la clasificación.
  • La hora del día se tiene en cuenta como factor de clasificación.

A continuación, he ampliado algunas otras afirmaciones y aprendizajes de la filtración.

Siempre que fue posible, también vinculé estos factores de clasificación filtrados con las actualizaciones de algoritmos y los anuncios relacionados con ellos, o donde se nos informó sobre su impacto.

MatrixNet

MatrixNet se menciona en algunos de los factores de clasificación y se anunció en 2009, y luego fue reemplazado en 2017 por Catboost, que se implementó en toda la esfera de productos de Yandex. Catboost

Esto agrega aún más validez a los comentarios directamente de Yandex, y uno de los autores del factor DenPlusPlus (Den Raskovalov), de que este es, de hecho, un repositorio de código obsoleto.

MatrixNet se introdujo originalmente como un nuevo algoritmo central que tuvo en cuenta miles de factores de clasificación y pesos asignados en función de la ubicación del usuario, la consulta de búsqueda real y la intención de búsqueda percibida.

Por lo general, se ve como una versión anterior de RankBrain de Google, cuando en realidad son dos sistemas muy diferentes. MatrixNet se lanzó seis años antes de que se anunciara RankBrain.

También se ha construido sobre MatrixNet, lo cual no es sorprendente, dado que ahora tiene 14 años.

En 2016, Yandex introdujo el algoritmo Palekh que usaba redes neuronales profundas para hacer coincidir mejor los documentos (páginas web) y las consultas, incluso si no contenían los «niveles» correctos de palabras clave comunes, pero satisfacían las intenciones del usuario.

Palekh era capaz de procesar 150 páginas a la vez, y en 2017 se actualizó con la actualización de Korolyov, que tuvo en cuenta una mayor profundidad del contenido de la página y podía trabajar con 200 000 páginas a la vez.

URL y factores de nivel de página

De la filtración, hemos aprendido que Yandex tiene en cuenta la construcción de URL, específicamente:

  • La presencia de números en la URL.
  • El número de barras inclinadas finales en la URL (y si son excesivas).
  • El número de letras mayúsculas en la URL es un factor.
Yandex leak of ranking factors

La edad de una página (edad del documento) y la última fecha de actualización también son importantes, y esto tiene sentido.

Además de la antigüedad del documento y la última actualización, una serie de factores en los datos se relacionan con la actualización, particularmente para consultas relacionadas con noticias.

Yandex anteriormente usaba marcas de tiempo, específicamente no con fines de clasificación sino con fines de «reordenación», pero ahora se clasifica como no utilizada.

También en la columna obsoleta está el uso de palabras clave en la URL Yandex ha medido previamente que tres palabras clave de la consulta de búsqueda en la URL serían un resultado «óptimo».

Enlaces internos y profundidad de rastreo

Si bien Google ha dejado constancia de que, para sus propósitos, la profundidad de rastreo no es explícitamente un factor de clasificación, Yandex parece tener un código activo que dicta que las URL a las que se puede acceder desde la página de inicio tienen un nivel «más alto» de

Yandex factors

Esto refleja la declaración de John Mueller de 2018 de que Google da «un poco más de peso» a las páginas que se encuentran a más de un clic de la página de inicio.

Los factores de clasificación también destacan una ponderación de token específica para las páginas web que son «huérfanas» dentro de la estructura de enlaces del sitio web.

Clics y CTR

En 2011, Yandex publicó una publicación de blog que hablaba sobre cómo el motor de búsqueda utiliza los clics como parte de sus clasificaciones y también aborda los deseos de los profesionales de SEO de manipular la métrica para obtener una clasificación.

Los factores de clic específicos en la fuga analizan cosas como:

  • La proporción del número de clics en la URL, en relación con todos los clics en la búsqueda.
  • Lo mismo que el anterior, pero desglosado por región.
  • ¿Con qué frecuencia los usuarios hacen clic en la URL para la búsqueda?

Manipulación de clics

Manipular el comportamiento del usuario, específicamente el «click-jacking», es una táctica conocida dentro de Yandex.

Yandex tiene un filtro, conocido como filtro PF, que busca y penaliza activamente los sitios web que participan en esta actividad mediante scripts que monitorean las similitudes de IP y luego las «acciones del usuario» de esos clics, y el impacto puede ser significativo.

La siguiente captura de pantalla muestra el impacto en las sesiones orgánicas (сессии) después de ser penalizado por imitar los clics de los usuarios.

Image Source: Russian Search News

Comportamiento del usuario

Los resultados de la filtración sobre el comportamiento del usuario son algunos de los hallazgos más interesantes.

La manipulación del comportamiento del usuario es una violación común de SEO que Yandex ha estado combatiendo durante años. En la conferencia de Optimización de 2020, el entonces director de Herramientas para webmasters de Yandex, Mikhail Slevinsky, dijo que la empresa está progresando mucho en la detección y penalización de este tipo de comportamiento.

Yandex penaliza la manipulación del comportamiento del usuario con el mismo filtro PF que se usa para combatir la manipulación del CTR.

Tiempo de permanencia

102 de los factores de clasificación contienen la etiqueta TG_USERFEAT_SEARCH_DWELL_TIME y hacen referencia al dispositivo, la duración del usuario y el tiempo promedio de permanencia en la página.

Todos menos 39 de estos factores están en desuso.

Yandex factors

Bing utilizó por primera vez el término tiempo de permanencia en un blog de 2011 y, en los últimos años, Google ha dejado claro que no utiliza el tiempo de permanencia (o señales de interacción del usuario similares) como factores de clasificación.

YMYL

YMYL (Your Money, Your Life) es un concepto muy conocido dentro de Google y no es un concepto nuevo para Yandex.

Dentro de la fuga de datos, existen factores de clasificación específicos para el contenido médico, legal y financiero, pero esto se reveló notablemente en 2019 en la conferencia para webmasters de Yandex cuando anunció la métrica de calidad de búsqueda de Proxima. Proxima Search Quality Metric

Uso de datos de Metrika

Seis de los factores de clasificación se relacionan con el uso de los datos de Metrika con fines de clasificación. Sin embargo, uno de ellos está etiquetado como obsoleto:

  • El número de visitantes similares de YandexBar (YaBar/Ябар).
  • El tiempo promedio dedicado a las URL de esos mismos visitantes similares.
  • La «audiencia principal» de las páginas en las que hay un contador de Metrika [obsoleto].
  • El tiempo promedio que un usuario pasa en un host cuando se accede de forma externa (desde otro sitio que no es de búsqueda) desde una URL específica.
  • «Profundidad» promedio (número de visitas dentro del host) de la estadía de un usuario en el host cuando se accede externamente (desde otro sitio que no es de búsqueda) desde una URL en particular.
  • Si el dominio tiene instalado Metrika o no.

En Metrika, los datos de los usuarios se manejan de manera diferente.

A diferencia de Google Analytics, hay una serie de informes centrados en la «lealtad» del usuario que combinan métricas de participación en el sitio con frecuencia de retorno, duración entre visitas y origen de la visita.

Por ejemplo, puedo ver un informe con un solo clic para ver un desglose de los visitantes individuales del sitio:

Metrika

Metrika también viene «listo para usar» con herramientas de mapa de calor y grabación de sesiones de usuario, y en los últimos años el equipo de Metrika ha logrado un buen progreso en la identificación y el filtrado del tráfico de bots.

Con Google Analytics, existe el argumento de que Google no usa datos UA/GA4 para fines de clasificación debido a lo fácil que es modificar o descifrar el código de seguimiento, pero con los contadores de Metrika, son mucho más lineales y mucho más

Impacto del tráfico en las clasificaciones

Después de mirar los datos de Metrika como un factor de clasificación;

  • Porcentaje de visitas directas entre todo el tráfico entrante.
  • Cuota de tráfico verde (también conocido como visitas directas) – Escritorio.
  • Cuota de tráfico verde (también conocido como visitas directas) – Móvil.
  • Tráfico de búsqueda: transiciones de los motores de búsqueda al sitio.
  • Porcentaje de visitas al sitio no por enlaces (establecidos a mano o desde marcadores).
  • El número de visitantes únicos.
  • Porcentaje de tráfico de los motores de búsqueda.

Factores de noticias

Hay una serie de factores relacionados con «Noticias», incluidos dos que mencionan Yandex.News directamente.

Yandex.News era un equivalente de Google News, pero se vendió a la red social rusa VKontakte en agosto de 2022, junto con otro producto de Yandex, “Zen”.

Por lo tanto, no está claro si estos factores se relacionan con un producto que Yandex ya no posee ni opera, o con la clasificación de los sitios web de noticias en la búsqueda «regular».

Importancia del vínculo de retroceso

Yandex tiene algoritmos similares para combatir la manipulación de enlaces como Google, y los tiene desde el filtro Nepot en 2005.

Al revisar los factores de clasificación de backlinks y algunos de los detalles en las descripciones, podemos suponer que las mejores prácticas para crear enlaces para Yandex SEO serían:

  • Construye enlaces con una frecuencia más natural y cantidades variables.
  • Cree enlaces con textos de anclaje de marca y use palabras clave comerciales.
  • Si compra enlaces, evite comprar enlaces de sitios web que tengan temas mixtos.

A continuación se muestra una lista de factores relacionados con los enlaces que pueden considerarse afirmaciones de las mejores prácticas:

  • La edad del vínculo de retroceso es un factor.
  • Relevancia de enlaces basada en temas.
  • Los vínculos de retroceso creados a partir de páginas de inicio tienen más peso que las páginas internas.
  • Los enlaces de los 100 mejores sitios web por PageRank (PR) pueden afectar las clasificaciones.
  • Relevancia del enlace basada en la calidad de cada enlace.
  • Relevancia del enlace, teniendo en cuenta la calidad de cada enlace y el tema de cada enlace.
  • Relevancia del enlace, teniendo en cuenta el carácter no comercial de cada enlace.
  • Porcentaje de enlaces entrantes con palabras de consulta.
  • Porcentaje de palabras de consulta en enlaces (hasta un sinónimo).
  • Los enlaces contienen todas las palabras de la consulta (hasta un sinónimo).
  • Dispersión del número de palabras de consulta en los enlaces.

Sin embargo, hay algunos factores relacionados con los enlaces que son consideraciones adicionales al planificar, monitorear y analizar los backlinks:

  • La proporción de backlinks «buenos» versus «malos» a un sitio web.
  • La frecuencia de los enlaces al sitio.
  • El número de enlaces basura de SEO entrantes entre hosts.

La fuga de datos también reveló que la calculadora de spam de enlaces tiene alrededor de 80 factores activos que se tienen en cuenta, con una serie de factores obsoletos.

Esto crea la pregunta de qué tan bien Yandex es capaz de reconocer los ataques negativos de SEO, dado que observa la proporción de enlaces buenos versus malos, y cómo determina qué es un enlace malo.

También es probable que un ataque de SEO negativo sea un evento de enlace de ráfaga corta (alta frecuencia) en el que un sitio obtendrá, sin darse cuenta, una gran cantidad de enlaces de mala calidad, no temáticos y potencialmente optimizados en exceso.

Yandex utiliza modelos de aprendizaje automático para identificar redes privadas de blogs (PBN) y enlaces pagos, y hace la misma suposición entre la velocidad del enlace y el período de tiempo en que se adquieren.

Por lo general, los enlaces pagados se generan durante un período de tiempo más largo, y estos patrones (incluido el análisis del sitio de origen del enlace) son lo que se introdujo para combatir la actualización de Minusinsk (2015).

Sanciones de Yandex

Hay dos factores de clasificación, ambos en desuso, llamados SpamKarma y Pessimization.

La pesimización se refiere a reducir el PageRank a cero y se alinea con las expectativas de sanciones severas de Yandex.

SpamKarma también se alinea con las suposiciones hechas en torno a Yandex que penaliza a los hosts y las personas, así como a los dominios individuales.

Publicidad en la página

Hay una serie de factores relacionados con la publicidad en la página, algunos de ellos obsoletos (como el ejemplo de captura de pantalla a continuación).

Yandex factors

No se sabe a partir de la descripción exactamente cuál fue el proceso de pensamiento con este factor, pero se podría suponer que una alta proporción de anuncios en la pantalla visible fue un factor negativo, al igual que Google se ofende si los anuncios ofuscan el contenido principal de la página, o

Relacionando esto con los mecanismos conocidos de Yandex, la actualización de Proxima también tuvo en cuenta la proporción de contenido útil y publicitario en una página.

¿Podemos aplicar cualquier aprendizaje de Yandex a Google?

Yandex y Google son motores de búsqueda dispares, con varias diferencias, a pesar de las decenas de ingenieros que han trabajado para ambas empresas.

Debido a esta lucha por el talento, podemos inferir que algunos de estos maestros constructores e ingenieros habrán construido cosas de manera similar (aunque no copias directas) y aplicado lo aprendido de iteraciones anteriores de sus construcciones con sus nuevos empleadores.

Lo que dicen los profesionales rusos de SEO sobre la fuga

Al igual que en el mundo occidental, los profesionales de SEO en Rusia han expresado su opinión sobre la filtración en los diversos foros de Runet.

La reacción en estos foros ha sido diferente a SEO Twitter y Mastodon, con un enfoque más en los filtros de Yandex y otros productos de Yandex que están optimizados como parte de campañas de optimización de Yandex más amplias.

También vale la pena señalar que una serie de conclusiones y hallazgos de los datos coinciden con lo que también está encontrando el mundo occidental de SEO.

Temas comunes en los foros de búsqueda rusos:

Los factores filtrados, particularmente sobre cómo Yandex evalúa la calidad del sitio, también han sido objeto de escrutinio.

Existe un sentimiento de larga data en la comunidad rusa de SEO de que Yandex a menudo favorece sus propios productos y servicios en los resultados de búsqueda antes que otros sitios web, y los webmasters hacen preguntas como:

¿Por qué se molesta en tomarse todas estas molestias, cuando de todos modos simplemente coloca sus servicios en la parte superior de la página?

En documentos traducidos libremente, estos se conocen como Hechiceros o Hechiceros Yandex. En Google, llamaríamos a estas características de las páginas de resultados del motor de búsqueda (SERP), como Google Hotels, etc.

En octubre de 2022, Kassir (un portal de entradas ruso) reclamó una compensación de ₽328 millones de Yandex debido a la pérdida de ingresos, causada por las «condiciones discriminatorias» en las que Yandex Sorcerers le quitó la base de clientes a la empresa privada.

Esto se debe a una demanda colectiva de 2020 en la que varias empresas presentaron un caso ante el Servicio Federal Antimonopolio (FAS) por la promoción anticompetitiva de sus propios servicios. 2020 class action

Más recursos:

Imagen destacada: FGC/Shutterstock

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales