Fuga de datos de Yandex: los factores de clasificación y los mitos que encontramos (flashback festivo)

Explore las consecuencias de la reciente y colosal filtración de datos de Yandex, una de las más grandes en años.

Celebre las fiestas con algunos de los mejores artículos de SEJ de 2023.

Nuestra serie Festive Flashback se llevará a cabo del 21 de diciembre al 5 de enero y presenta lecturas diarias sobre eventos importantes, fundamentos, estrategias viables y opiniones de líderes intelectuales.

2023 ha sido bastante agitado en la industria del SEO y nuestros colaboradores produjeron algunos artículos destacados para mantener el ritmo y reflejar estos cambios.

Póngase al día con las mejores lecturas de 2023 para tener mucho en qué reflexionar a medida que avanza hacia 2024.

Yandex es el motor de búsqueda con mayor cuota de mercado en Rusia y el cuarto motor de búsqueda más grande del mundo.

El 27 de enero de 2023, sufrió lo que podría decirse que es una de las mayores filtraciones de datos que una empresa de tecnología moderna haya sufrido en muchos años, pero es la segunda filtración en menos de una década.

En 2015, un ex empleado de Yandex intentó vender el código del motor de búsqueda de Yandex en el mercado negro por alrededor de 30.000 dólares.

La filtración inicial en enero de este año reveló 1.922 factores de clasificación, de los cuales más del 64% estaban catalogados como no utilizados o obsoletos (reemplazados y es mejor evitarlos).

Esta filtración fue solo el archivo etiquetado como kernel, pero a medida que la comunidad SEO y yo profundizamos más, se encontraron más archivos que combinados contienen aproximadamente 17,800 factores de clasificación.

Cuando se trata de practicar SEO para Yandex, la guía que escribí hace dos años todavía se aplica en su mayor parte.

Yandex, al igual que Google, siempre ha hecho público sus actualizaciones y cambios de algoritmos y, en los últimos años, cómo ha adoptado el aprendizaje automático.

Las actualizaciones notables de los últimos dos o tres años incluyen:

A título personal, esta filtración de datos es como una segunda Navidad.

Desde enero de 2020, dirijo un sitio web de noticias de SEO como pasatiempo dedicado a cubrir noticias de búsqueda y SEO de Yandex en Rusia con más de 600 artículos, por lo que este es probablemente el evento principal del sitio de pasatiempos.

También hablé dos veces en la conferencia de Optimización, la conferencia de SEO más grande de Rusia.

Esta también es una buena prueba para ver en qué medida las declaraciones públicas de Yandex coinciden con los secretos del código base.

En 2019, trabajando con el equipo de relaciones públicas de Yandex, pude entrevistar a ingenieros de su equipo de búsqueda y hacerles una serie de preguntas provenientes de la comunidad SEO occidental en general.

Puede leer la entrevista con el equipo de búsqueda de Yandex aquí.

Si bien Yandex es conocido principalmente por su presencia en Rusia, el motor de búsqueda también tiene presencia en Turquía, Kazajstán y Georgia.

Se creía que la filtración de datos tenía motivaciones políticas y las acciones de un empleado deshonesto, y contiene varios fragmentos de código del repositorio monolítico de Yandex, Arcadia.

Dentro de los 44 GB de datos filtrados, hay información relacionada con varios productos de Yandex, incluidos Búsqueda, Mapas, Correo, Metrika, Disco y Nube.

Lo que Yandex ha tenido que decir

Mientras escribo esta publicación (31 de enero de 2023), Yandex ha declarado públicamente que: Yandex has publicly stated

the contents of the archive (leaked code base) correspond to the outdated version of the repository – it differs from the current version used by our services

el contenido del archivo (código base filtrado) corresponde a la versión desactualizada del repositorio; difiere de la versión actual utilizada por nuestros servicios

Y:

It is important to note that the published code fragments also contain test algorithms that were used only within Yandex to verify the correct operation of the services.

Es importante señalar que los fragmentos de código publicados también contienen algoritmos de prueba que se utilizaron únicamente dentro de Yandex para verificar el correcto funcionamiento de los servicios.

Por lo tanto, es cuestionable qué parte de esta base de código se utiliza activamente.

Yandex también ha revelado que durante su investigación y auditoría, encontró una serie de errores que violan sus propios principios internos, por lo que es probable que partes de este código filtrado (que se utilizan actualmente) cambien en un futuro próximo.

Clasificación de factores

Yandex clasifica sus factores de clasificación en tres categorías.

Esto se ha descrito en la documentación pública de Yandex durante algún tiempo, pero creo que vale la pena incluirlo aquí, ya que nos ayuda a comprender mejor la fuga del factor de clasificación.

  • Factores estáticos: factores que están relacionados directamente con el sitio web (p. ej. vínculos de retroceso entrantes, vínculos internos entrantes, encabezados y proporción de anuncios).
  • Factores relacionados con la búsqueda del usuario: factores relacionados con la consulta del usuario (p. ej. dónde se encuentra el usuario, idioma de consulta y modificadores de intención).

Los factores de clasificación en el documento están etiquetados para que coincidan con la categoría correspondiente, con TG_STATIC y TG_DYNAMIC, y luego TG_QUERY_ONLY, TG_QUERY, TG_USER_SEARCH y TG_USER_SEARCH_ONLY.

Aprendizajes sobre fugas de Yandex hasta ahora

A partir de los datos hasta el momento, a continuación se presentan algunas de las afirmaciones y aprendizajes que hemos podido obtener.

Hay tantos datos en esta filtración que es muy probable que encontremos cosas nuevas y hagamos nuevas conexiones en las próximas semanas.

Éstas incluyen:

  • En algún momento, Yandex utilizó TF*IDF.
  • Los enlaces de sitios web de alta autoridad tienen un impacto en las clasificaciones.
  • No hay nada nuevo que sugiera que Yandex pueda rastrear JavaScript aún fuera de los procesos ya documentados públicamente.
  • Los errores del servidor y los errores 4xx excesivos pueden afectar la clasificación.
  • La hora del día se tiene en cuenta como factor de clasificación.

A continuación, he ampliado algunas otras afirmaciones y aprendizajes de la filtración.

Siempre que fue posible, también vinculé estos factores de clasificación filtrados con las actualizaciones de algoritmos y los anuncios relacionados con ellos, o donde nos dijeron que tenían impacto.

MatrizNet

MatrixNet se menciona en algunos de los factores de clasificación y se anunció en 2009 y luego fue reemplazado en 2017 por Catboost, que se implementó en toda la esfera de productos de Yandex. Catboost

Esto agrega aún más validez a los comentarios directamente de Yandex y uno de los autores del factor DenPlusPlus (Den Raskovalov), de que este es, de hecho, un repositorio de código obsoleto.

MatrixNet se introdujo originalmente como un nuevo algoritmo central que tomaba en consideración miles de factores de clasificación y asignaba pesos en función de la ubicación del usuario, la consulta de búsqueda real y la intención de búsqueda percibida.

Suele verse como una versión temprana de RankBrain de Google, cuando en realidad son dos sistemas muy diferentes. MatrixNet se lanzó seis años antes de que se anunciara RankBrain.

También se ha desarrollado MatrixNet, lo cual no es sorprendente, dado que ya tiene 14 años.

En 2016, Yandex introdujo el algoritmo Palekh que utilizaba redes neuronales profundas para hacer coincidir mejor los documentos (páginas web) y las consultas, incluso si no contenían los «niveles» correctos de palabras clave comunes, pero satisfacían las intenciones del usuario.

Palekh era capaz de procesar 150 páginas a la vez y en 2017 se actualizó con la actualización Korolyov, que tenía en cuenta una mayor profundidad del contenido de la página y podía procesar 200.000 páginas a la vez.

URL y factores a nivel de página

A partir de la filtración, hemos aprendido que Yandex tiene en cuenta la construcción de URL, específicamente:

  • La presencia de números en la URL.
  • El número de barras diagonales al final de la URL (y si son excesivas).
  • La cantidad de letras mayúsculas en la URL es un factor.
Yandex leak of ranking factors

La antigüedad de una página (antigüedad del documento) y la fecha de la última actualización también son importantes, y esto tiene sentido.

Además de la antigüedad del documento y la última actualización, varios factores de los datos están relacionados con la actualidad, especialmente en el caso de consultas relacionadas con noticias.

Yandex utilizaba anteriormente marcas de tiempo, específicamente no con fines de clasificación sino con fines de “reordenación”, pero ahora se clasifican como no utilizadas.

También en la columna obsoleta está el uso de palabras clave en la URL. Yandex midió previamente que tres palabras clave de la consulta de búsqueda en la URL serían un resultado «óptimo».

Enlaces internos y profundidad de rastreo

Si bien Google ha dejado constancia de que, para sus propósitos, la profundidad de rastreo no es explícitamente un factor de clasificación, Yandex parece tener un código activo que dicta que las URL a las que se puede acceder desde la página de inicio tienen un nivel «más alto» de

Yandex factors

Esto refleja la declaración de John Mueller de 2018 de que Google da “un poco más de peso” a las páginas que se encuentran a más de un clic de la página de inicio.

Los factores de clasificación también resaltan una ponderación simbólica específica para las páginas web que son «huérfanas» dentro de la estructura de enlaces del sitio web.

Clics y CTR

En 2011, Yandex publicó una publicación de blog que hablaba de cómo el motor de búsqueda utiliza los clics como parte de sus clasificaciones y también aborda los deseos de los profesionales de SEO de manipular la métrica para mejorar la clasificación.

Los factores de clic específicos en la filtración analizan cosas como:

  • La relación entre el número de clics en la URL, en relación con todos los clics en la búsqueda.
  • Lo mismo que el anterior, pero desglosado por región.
  • ¿Con qué frecuencia los usuarios hacen clic en la URL de la búsqueda?

Manipular clics

Manipular el comportamiento del usuario, específicamente el «click-jacking», es una táctica conocida dentro de Yandex.

Yandex tiene un filtro, conocido como filtro PF, que busca activamente y penaliza a los sitios web que participan en esta actividad utilizando scripts que monitorean las similitudes de IP y luego las “acciones del usuario” de esos clics, y el impacto puede ser significativo.

La siguiente captura de pantalla muestra el impacto en las sesiones orgánicas (сессии) después de ser penalizado por imitar los clics de los usuarios.

Image Source: Russian Search News

Comportamiento del usuario

Las conclusiones sobre el comportamiento del usuario derivadas de la filtración son algunos de los hallazgos más interesantes.

La manipulación del comportamiento del usuario es una violación común de SEO que Yandex ha estado combatiendo durante años En la conferencia de optimización 2020, el entonces jefe de herramientas para webmasters de Yandex, Mikhail Slevinsky, afirmó que la empresa está haciendo grandes progresos en la detección y penalización de este tipo de comportamiento.

Yandex penaliza la manipulación del comportamiento del usuario con el mismo filtro PF que se utiliza para combatir la manipulación del CTR.

Tiempo de permanencia

102 de los factores de clasificación contienen la etiqueta TG_USERFEAT_SEARCH_DWELL_TIME y hacen referencia al dispositivo, la duración del usuario y el tiempo promedio de permanencia en la página.

Todos menos 39 de estos factores están en desuso.

Yandex factors

Bing utilizó por primera vez el término tiempo de permanencia en un blog de 2011 y, en los últimos años, Google ha dejado claro que no utiliza el tiempo de permanencia (o señales similares de interacción del usuario) como factores de clasificación.

YMYL

YMYL (Tu dinero, tu vida) es un concepto muy conocido en Google y no es un concepto nuevo para Yandex.

Dentro de la filtración de datos, existen factores de clasificación específicos para el contenido médico, legal y financiero, pero esto se reveló notablemente en 2019 en la conferencia Yandex Webmaster cuando anunció la métrica de calidad de búsqueda Proxima. Proxima Search Quality Metric

Uso de datos de Metrika

Seis de los factores de clasificación se relacionan con el uso de datos de Metrika con fines de clasificación. Sin embargo, uno de ellos está etiquetado como obsoleto:

  • El número de visitantes similares de YandexBar (YaBar/Ябар).
  • El tiempo promedio dedicado a las URL de esos mismos visitantes similares.
  • La «audiencia principal» de las páginas en las que hay un contador Metrika [en desuso].
  • El tiempo promedio que un usuario pasa en un host cuando accede externamente (desde otro sitio que no sea de búsqueda) desde una URL específica.
  • «Profundidad» promedio (número de visitas dentro del host) de la estadía de un usuario en el host cuando se accede externamente (desde otro sitio que no sea de búsqueda) desde una URL en particular.
  • Si el dominio tiene instalado Metrika o no.

En Metrika los datos de los usuarios se tratan de forma diferente.

A diferencia de Google Analytics, hay una serie de informes centrados en la «lealtad» del usuario que combinan métricas de participación en el sitio con la frecuencia de retorno, la duración entre visitas y el origen de la visita.

Por ejemplo, puedo ver un informe con un solo clic para ver un desglose de los visitantes individuales del sitio:

Metrika

Metrika también viene listo para usar con herramientas de mapas de calor y grabación de sesiones de usuario, y en los últimos años el equipo de Metrika ha logrado grandes avances en su capacidad de identificar y filtrar el tráfico de bots.

Con Google Analytics, existe el argumento de que Google no utiliza datos UA/GA4 para fines de clasificación debido a lo fácil que es modificar o descifrar el código de seguimiento, pero con los contadores Metrika, son mucho más lineales y mucho más.

Impacto del tráfico en las clasificaciones

Después de considerar los datos de Metrika como un factor de clasificación;

  • Proporción de visitas directas entre todo el tráfico entrante.
  • Cuota de tráfico ecológico (también conocido como visitas directas): escritorio.
  • Cuota de tráfico ecológico (también conocido como visitas directas): móvil.
  • Tráfico de búsqueda: transiciones de los motores de búsqueda al sitio.
  • Proporción de visitas al sitio no mediante enlaces (establecidos manualmente o desde marcadores).
  • El número de visitantes únicos.
  • Proporción de tráfico procedente de motores de búsqueda.

Factores de noticias

Hay varios factores relacionados con las «Noticias», incluidos dos que mencionan directamente a Yandex.News.

Yandex.News era un equivalente de Google News, pero se vendió a la red social rusa VKontakte en agosto de 2022, junto con otro producto de Yandex, “Zen”.

Por lo tanto, no está claro si estos factores se relacionan con un producto que ya no es propiedad de Yandex ni está operado por ella, o con cómo se clasifican los sitios web de noticias en la búsqueda «normal».

Importancia del vínculo de retroceso

Yandex tiene algoritmos similares a los de Google para combatir la manipulación de enlaces, y los tiene desde el filtro Nepot en 2005.

Al revisar los factores de clasificación de los vínculos de retroceso y algunos de los detalles de las descripciones, podemos suponer que las mejores prácticas para crear vínculos para Yandex SEO serían:

  • Construya enlaces con una frecuencia más natural y cantidades variables.
  • Cree enlaces con textos de anclaje de marca y utilice palabras clave comerciales.
  • Si compra enlaces, evite comprarlos de sitios web que tengan temas mixtos.

A continuación se muestra una lista de factores relacionados con enlaces que pueden considerarse afirmaciones de mejores prácticas:

  • La antigüedad del vínculo de retroceso es un factor.
  • Relevancia del enlace basada en temas.
  • Los vínculos de retroceso creados desde las páginas de inicio tienen más peso que las páginas internas.
  • Los enlaces de los 100 sitios web principales según PageRank (PR) pueden afectar las clasificaciones.
  • Relevancia del enlace basada en la calidad de cada enlace.
  • Relevancia del enlace, teniendo en cuenta la calidad de cada enlace y la temática de cada enlace.
  • Relevancia del enlace, teniendo en cuenta el carácter no comercial de cada enlace.
  • Porcentaje de enlaces entrantes con palabras de consulta.
  • Porcentaje de palabras de consulta en enlaces (hasta un sinónimo).
  • Los enlaces contienen todas las palabras de la consulta (hasta un sinónimo).
  • Dispersión del número de palabras de consulta en los enlaces.

Sin embargo, existen algunos factores relacionados con los vínculos que son consideraciones adicionales al planificar, monitorear y analizar vínculos de retroceso:

  • La proporción de vínculos de retroceso «buenos» y «malos» a un sitio web.
  • La frecuencia de los enlaces al sitio.
  • La cantidad de enlaces basura de SEO entrantes entre hosts.

La filtración de datos también reveló que la calculadora de spam de enlaces tiene alrededor de 80 factores activos que se tienen en cuenta, con una serie de factores obsoletos.

Esto crea la pregunta de qué tan bien Yandex es capaz de reconocer los ataques SEO negativos, dado que analiza la proporción de enlaces buenos y malos, y cómo determina qué es un enlace malo.

Un ataque de SEO negativo también es probable que sea un evento de enlace de ráfaga corta (alta frecuencia) en el que un sitio obtendrá, sin saberlo, una gran cantidad de enlaces de mala calidad, no temáticos y potencialmente demasiado optimizados.

Yandex utiliza modelos de aprendizaje automático para identificar redes de blogs privados (PBN) y enlaces pagos, y hace la misma suposición entre la velocidad del enlace y el período de tiempo en que se adquieren.

Por lo general, los enlaces pagos se generan durante un período de tiempo más largo, y estos patrones (incluido el análisis del sitio del origen del enlace) son lo que se introdujo para combatir la actualización de Minusinsk (2015).

Sanciones de Yandex

Hay dos factores de clasificación, ambos en desuso, denominados SpamKarma y Pesimización.

La pesimización se refiere a reducir el PageRank a cero y se alinea con las expectativas de severas sanciones para Yandex.

SpamKarma también se alinea con las suposiciones hechas sobre Yandex que penaliza a los hosts y a las personas, así como a los dominios individuales.

Publicidad en la página

Hay una serie de factores relacionados con la publicidad en la página, algunos de ellos en desuso (como el ejemplo de captura de pantalla a continuación).

Yandex factors

A partir de la descripción no se sabe exactamente cuál fue el proceso de pensamiento con este factor, pero se podría suponer que una alta proporción de anuncios en pantalla visible fue un factor negativo, de manera muy similar a cómo Google se ofende si los anuncios confunden el contenido principal de la página, o

Relacionando esto con los mecanismos conocidos de Yandex, la actualización de Proxima también tomó en consideración la proporción de contenido útil y publicitario en una página.

¿Podemos aplicar algún aprendizaje de Yandex a Google?

Yandex y Google son motores de búsqueda dispares, con varias diferencias, a pesar de las decenas de ingenieros que han trabajado para ambas empresas.

Debido a esta lucha por el talento, podemos inferir que algunos de estos maestros constructores e ingenieros habrán construido cosas de manera similar (aunque no copias directas) y habrán aplicado lo aprendido de iteraciones anteriores de sus construcciones con sus nuevos empleadores.

Lo que dicen los profesionales rusos de SEO sobre la filtración

Al igual que en el mundo occidental, los profesionales de SEO en Rusia han expresado su opinión sobre la filtración en los distintos foros de Runet.

La reacción en estos foros ha sido diferente a SEO Twitter y Mastodon, con un enfoque más en los filtros de Yandex y otros productos de Yandex que están optimizados como parte de campañas de optimización más amplias de Yandex.

También vale la pena señalar que una serie de conclusiones y hallazgos de los datos coinciden con lo que también está encontrando el mundo del SEO occidental.

Temas comunes en los foros de búsqueda rusos:

Los factores filtrados, particularmente en torno a cómo Yandex evalúa la calidad del sitio, también han sido objeto de escrutinio.

Existe un sentimiento de larga data en la comunidad SEO rusa de que Yandex a menudo favorece sus propios productos y servicios en los resultados de búsqueda por delante de otros sitios web, y los webmasters hacen preguntas como:

¿Por qué se molesta en tomarse todas estas molestias, cuando de todos modos simplemente coloca sus servicios en la parte superior de la página?

En documentos traducidos libremente, se les conoce como Hechiceros o Hechiceros Yandex. En Google, llamaríamos a estas funciones de páginas de resultados de motores de búsqueda (SERP), como Google Hotels, etc.

En octubre de 2022, Kassir (un portal de entradas ruso) reclamó a Yandex una compensación de 328 millones de libras debido a la pérdida de ingresos, provocada por las “condiciones discriminatorias” en las que Yandex Sorcerers le quitó la base de clientes a la empresa privada.

Esto se debe a una demanda colectiva de 2020 en la que varias empresas presentaron un caso ante el Servicio Federal Antimonopolio (FAS) por promoción anticompetitiva de sus propios servicios. 2020 class action

Más recursos:

Imagen de portada: FGC/Shutterstock

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales