Google DeepMind WARM: puede hacer que la IA sea más confiable

Investigadores de DeepMind publicaron detalles de un nuevo modelo de entrenamiento de IA llamado WARM que mejora la eficiencia, confiabilidad y calidad

DeepMind de Google publicó un artículo de investigación que propone una forma de entrenar modelos de lenguaje grandes para que proporcionen respuestas más confiables y sean resistentes al pirateo de recompensas, un paso en el desarrollo de sistemas de inteligencia artificial más adaptables y eficientes.

Felicitaciones a @EthanLazuk por tuitear sobre un nuevo artículo de investigación de Google DeepMind. @EthanLazuk

La IA tiene tendencia al hackeo de recompensas

El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es un método utilizado para entrenar la IA generativa para que aprenda a ofrecer respuestas que reciban puntuaciones positivas por parte de evaluadores humanos. Las puntuaciones positivas son una recompensa por las respuestas correctas, por eso esta técnica se llama Aprendizaje por Refuerzo Las puntuaciones positivas las dan los evaluadores humanos, por eso se llama aprendizaje por refuerzo a partir de la retroalimentación humana.

RLHF tiene mucho éxito, pero también tiene un efecto secundario no deseado en el que la IA aprende atajos y recibe una recompensa positiva. En lugar de proporcionar una respuesta correcta, proporciona una respuesta que tiene la apariencia de una respuesta correcta y cuando engaña a los evaluadores humanos (lo cual es un fallo del entrenamiento de refuerzo), la IA comienza a mejorar su capacidad para engañar a los evaluadores humanos con información inexacta.

Esta tendencia de la IA a “hacer trampa” para ganar la recompensa del entrenamiento se llama Reward Hacking, que es lo que el estudio busca minimizar.

Las causas del hacking de recompensas en modelos de lenguaje grandes

Para resolver el problema del hackeo de recompensas, los investigadores identificaron dos áreas que conducen al hackeo de recompensas y que deben abordarse con su solución:

  1. Turnos de distribución
  2. Inconsistencias en las preferencias humanas.

Turnos de distribución

Los cambios de distribución se refieren a la situación en la que un LLM se entrena con un determinado tipo de conjunto de datos y luego, durante el aprendizaje por refuerzo, se expone a diferentes tipos de datos de entrenamiento que no ha visto antes. Este cambio en el tipo de datos se denomina cambio de distribución y podría causar que el modelo de lenguaje manipule el sistema de recompensa para dar una respuesta satisfactoria que de otro modo no estaría preparado para proporcionar.

Inconsistencias en las preferencias humanas

Esta es una referencia a que los humanos son inconsistentes en sus calificaciones al juzgar las respuestas proporcionadas por la IA. Por ejemplo, resolver el problema de la inconsistencia en las preferencias humanas es probablemente una de las motivaciones detrás de la creación de las Directrices para evaluadores de calidad de búsqueda de Google, que tienen el efecto de disminuir la influencia de las preferencias subjetivas.

Las preferencias humanas pueden variar de persona a persona. El aprendizaje por refuerzo a partir de la retroalimentación humana se basa en la retroalimentación humana en el proceso de entrenamiento del modelo de recompensa (RM) y son las inconsistencias las que pueden llevar a la piratería de recompensas.

Encontrar una solución es importante, como señalaron los investigadores:

“This reward hacking phenomenon poses numerous issues.

First, it degrades performances, manifesting as linguistically flawed or unnecessarily verbose outputs, which do not reflect true human preferences.

Second, it complicates checkpoint selection due to the unreliability of the proxy RM, echoing Goodhart’s Law: ‘when a measure becomes a target, it ceases to be a good measure’.

Third, it can engender sycophancy or amplify social biases, reflecting the limited and skewed demographics of feedback providers.

Lastly and most critically, misalignment due to reward hacking can escalate into safety risks, in particular given the rapid integration of LLMs in everyday life and critical decision-making. “

“Este fenómeno de piratería de recompensas plantea numerosos problemas.

En primer lugar, degrada las actuaciones, manifestándose como resultados lingüísticamente defectuosos o innecesariamente detallados, que no reflejan las verdaderas preferencias humanas.

En segundo lugar, complica la selección de los puntos de control debido a la falta de confiabilidad del RM proxy, haciéndose eco de la Ley de Goodhart: “cuando una medida se convierte en un objetivo, deja de ser una buena medida”.

En tercer lugar, puede generar adulación o amplificar los prejuicios sociales, lo que refleja la demografía limitada y sesgada de los proveedores de retroalimentación.

Por último, y lo más crítico, la desalineación debida a la piratería de recompensas puede convertirse en riesgos para la seguridad, en particular dada la rápida integración de los LLM en la vida cotidiana y la toma de decisiones críticas. “

Modelos de recompensa con peso promedio (WARM)

Los investigadores de Google DeepMind desarrollaron un sistema llamado Weight Averaged Reward Models (WARM), que crea un modelo proxy a partir de la combinación de múltiples modelos de recompensa individuales, cada uno con ligeras diferencias. Con WARM, a medida que aumentan el número de modelos de recompensa (RM), promedian juntos y los resultados mejoran significativamente, y el sistema evita la disminución repentina de la confiabilidad como ocurre con los modelos estándar.

El sistema WARM, debido a que utiliza varios modelos más pequeños, tiene la ventaja de ser eficiente en cuanto a memoria y no ralentiza la capacidad del modelo para proporcionar respuestas, además de ser resistente a la piratería de recompensas.

WARM también hace que el modelo sea más confiable y consistente cuando se trata de datos cambiantes y más consistente.

Lo que me llamó la atención es su capacidad para seguir el “paradigma de aprendizaje automático actualizable”, que se refiere a la capacidad de WARM para adaptarse y mejorar incorporando nuevos datos o cambios a lo largo del tiempo, sin empezar desde cero.

En la siguiente cita, WA significa promedio ponderado y RM significa modelo de recompensa.

Los investigadores explican:

“WARM represents a flexible and pragmatic method to improve the alignment of AI with human values and societal norms.

…WARM follows the updatable machine learning paradigm, eliminating the need for inter-server communication, thus enabling embarrassingly simple parallelization of RMs.

This facilitates its use in federated learning scenario where the data should remain private; moreover, WA would add a layer of privacy and bias mitigation by reducing the memorization of private preference. Then, a straightforward extension of WARM would combine RMs trained on different datasets, for example, coming from different (clusters of) labelers.

…Furthermore, as WA has been shown to limit catastrophic forgetting, WARM could seamlessly support iterative and evolving preferences.”

“WARM representa un método flexible y pragmático para mejorar la alineación de la IA con los valores humanos y las normas sociales.

…WARM sigue el paradigma de aprendizaje automático actualizable, eliminando la necesidad de comunicación entre servidores, permitiendo así una paralelización vergonzosamente simple de RM.

Esto facilita su uso en escenarios de aprendizaje federado donde los datos deben permanecer privados; Luego, una extensión sencilla de WARM combinaría RM entrenados en diferentes conjuntos de datos, por ejemplo, provenientes de diferentes (grupos de) etiquetadores.

…Además, como se ha demostrado que WA limita el olvido catastrófico, WARM podría respaldar perfectamente preferencias iterativas y en evolución”.

Limitaciones

Esta investigación señala el camino hacia más formas de mejorar la IA, pero no es una solución completa porque tiene limitaciones inherentes. Uno de los problemas es que no elimina por completo todas las formas de “correlaciones espurias o sesgos inherentes a los datos de preferencias”.

Sin embargo, concluyeron en tono optimista sobre el futuro de WARM:

“Our empirical results demonstrate its effectiveness when applied to summarization. We anticipate that WARM will contribute to more aligned, transparent, and effective AI systems, encouraging further exploration in reward modeling.”

“Nuestros resultados empíricos demuestran su eficacia cuando se aplican al resumen. Anticipamos que WARM contribuirá a sistemas de IA más alineados, transparentes y eficaces, fomentando una mayor exploración en el modelado de recompensas”.

Lea el trabajo de investigación:

CALIENTE: Sobre los beneficios de los modelos de recompensa con peso promedio WARM: On the Benefits of Weight Averaged Reward Models

Imagen destacada de Shutterstock/Mansel Birst

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales