Google DeepMind RecurrentGemma supera a los modelos Transformer

El avance de la investigación de Google DeepMind permite una alternativa de alto rendimiento a los modelos basados ​​en transformadores que utiliza menos recursos

Google DeepMind publicó un artículo de investigación que propone un modelo de lenguaje llamado RecurrentGemma que puede igualar o superar el rendimiento de los modelos basados ​​en transformadores y al mismo tiempo ser más eficiente en memoria, ofreciendo la promesa de un gran rendimiento de modelos de lenguaje en entornos de recursos limitados.

El trabajo de investigación ofrece una breve descripción:

“We introduce RecurrentGemma, an open language model which uses Google’s novel Griffin architecture. Griffin combines linear recurrences with local attention to achieve excellent performance on language. It has a fixed-sized state, which reduces memory use and enables efficient inference on long sequences. We provide a pre-trained model with 2B non-embedding parameters, and an instruction tuned variant. Both models achieve comparable performance to Gemma-2B despite being trained on fewer tokens.”

“Presentamos RecurrentGemma, un modelo de lenguaje abierto que utiliza la novedosa arquitectura Griffin de Google. Griffin combina recurrencias lineales con atención local para lograr un excelente rendimiento en el lenguaje Tiene un estado de tamaño fijo, lo que reduce el uso de memoria y permite una inferencia eficiente en secuencias largas. Proporcionamos un modelo previamente entrenado con parámetros 2B no integrados y una variante sintonizada con instrucciones. Ambos modelos logran un rendimiento comparable al de Gemma-2B a pesar de estar entrenados con menos tokens”.

Conexión con Gemma

Gemma es un modelo abierto que utiliza la tecnología Gemini de primer nivel de Google, pero es liviano y puede ejecutarse en computadoras portátiles y dispositivos móviles. Al igual que Gemma, RecurrentGemma también puede funcionar en entornos con recursos limitados. Otras similitudes entre Gemma y RecurrentGemma se encuentran en los datos previos al entrenamiento, el ajuste de instrucciones y RLHF (aprendizaje por refuerzo a partir de retroalimentación humana). RLHF es una forma de utilizar la retroalimentación humana para entrenar un modelo para que aprenda por sí solo, para la IA generativa.

Arquitectura del grifo

El nuevo modelo se basa en un modelo híbrido llamado Griffin que fue anunciado hace unos meses. A Griffin se le llama modelo “híbrido” porque utiliza dos tipos de tecnologías, una que le permite manejar eficientemente largas secuencias de información mientras que la otra le permite centrarse en las partes más recientes de la entrada, lo que le da la capacidad de procesar

El trabajo de investigación de Griffin propuso dos modelos, uno llamado Hawk y el otro llamado Griffin. El artículo de investigación de Griffin explica por qué es un gran avance:

“…we empirically validate the inference-time advantages of Hawk and Griffin and observe reduced latency and significantly increased throughput compared to our Transformer baselines. Lastly, Hawk and Griffin exhibit the ability to extrapolate on longer sequences than they have been trained on and are capable of efficiently learning to copy and retrieve data over long horizons. These findings strongly suggest that our proposed models offer a powerful and efficient alternative to Transformers with global attention.”

“…validamos empíricamente las ventajas del tiempo de inferencia de Hawk y Griffin y observamos una latencia reducida y un rendimiento significativamente mayor en comparación con nuestras líneas base de Transformer. Por último, Hawk y Griffin exhiben la capacidad de extrapolar secuencias más largas de las que han sido entrenados y son capaces de aprender de manera eficiente a copiar y recuperar datos en horizontes largos. Estos hallazgos sugieren fuertemente que nuestros modelos propuestos ofrecen una alternativa poderosa y eficiente a los Transformers con atención global”.

La diferencia entre Griffin y RecurrentGemma está en una modificación relacionada con cómo el modelo procesa los datos de entrada (incrustaciones de entrada).

Avances

El artículo de investigación afirma que RecurrentGemma proporciona un rendimiento similar o mejor que el modelo de transformador Gemma-2b más convencional (que fue entrenado con 3 billones de tokens frente a 2 billones de RecurrentGemma). Esta es parte de la razón por la que el artículo de investigación se titula “Pasando los modelos de transformadores”, porque muestra una manera de lograr un mayor rendimiento sin la gran sobrecarga de recursos de la arquitectura del transformador.

Otra ventaja sobre los modelos de transformadores es la reducción del uso de memoria y tiempos de procesamiento más rápidos. El artículo de investigación explica:

“A key advantage of RecurrentGemma is that it has a significantly smaller state size than transformers on long sequences. Whereas Gemma’s KV cache grows proportional to sequence length, RecurrentGemma’s state is bounded, and does not increase on sequences longer than the local attention window size of 2k tokens. Consequently, whereas the longest sample that can be generated autoregressively by Gemma is limited by the memory available on the host, RecurrentGemma can generate sequences of arbitrary length.”

“Una ventaja clave de RecurrentGemma es que tiene un tamaño de estado significativamente más pequeño que los transformadores en secuencias largas. Mientras que el caché KV de Gemma crece proporcionalmente a la longitud de la secuencia, el estado de RecurrentGemma está limitado y no aumenta en secuencias más largas que el tamaño de la ventana de atención local de 2k tokens. En consecuencia, mientras que la muestra más larga que Gemma puede generar de forma autorregresiva está limitada por la memoria disponible en el host, RecurrentGemma puede generar secuencias de longitud arbitraria”.

RecurrentGemma también supera al modelo de transformador Gemma en rendimiento (cantidad de datos que se pueden procesar, cuanto mayor sea, mejor) El rendimiento del modelo transformador se ve afectado con secuencias de mayor longitud (aumento en el número de tokens o palabras), pero ese no es el caso de RecurrentGemma, que es capaz de mantener un alto rendimiento.

El trabajo de investigación muestra:

“In Figure 1a, we plot the throughput achieved when sampling from a prompt of 2k tokens for a range of generation lengths. The throughput calculates the maximum number of tokens we can sample per second on a single TPUv5e device.

…RecurrentGemma achieves higher throughput at all sequence lengths considered. The throughput achieved by RecurrentGemma does not reduce as the sequence length increases, while the throughput achieved by Gemma falls as the cache grows.”

“En la Figura 1a, trazamos el rendimiento logrado al muestrear a partir de un mensaje de 2k tokens para un rango de longitudes de generación. El rendimiento calcula la cantidad máxima de tokens que podemos muestrear por segundo en un solo dispositivo TPUv5e.

…RecurrentGemma logra un mayor rendimiento en todas las longitudes de secuencia consideradas El rendimiento logrado por RecurrentGemma no se reduce a medida que aumenta la longitud de la secuencia, mientras que el rendimiento logrado por Gemma disminuye a medida que crece el caché”.

Limitaciones de Gemma recurrente

El artículo de investigación muestra que este enfoque tiene su propia limitación, ya que el rendimiento es inferior en comparación con los modelos de transformadores tradicionales.

Los investigadores destacan una limitación en el manejo de secuencias muy largas, algo que los modelos de transformadores pueden manejar.

Según el periódico:

“Although RecurrentGemma models are highly efficient for shorter sequences, their performance can lag behind traditional transformer models like Gemma-2B when handling extremely long sequences that exceed the local attention window.”

«Aunque los modelos RecurrentGemma son muy eficientes para secuencias más cortas, su rendimiento puede quedar por detrás de los modelos de transformadores tradicionales como Gemma-2B cuando manejan secuencias extremadamente largas que exceden la ventana de atención local».

Lo que esto significa para el mundo real

La importancia de este enfoque de los modelos de lenguaje es que sugiere que existen otras formas de mejorar el rendimiento de los modelos de lenguaje utilizando menos recursos computacionales en una arquitectura que no es un modelo transformador. Esto también muestra que un modelo sin transformador puede superar una de las limitaciones de los tamaños de caché del modelo con transformador que tienden a aumentar el uso de memoria.

Esto podría conducir a aplicaciones de modelos de lenguaje en un futuro próximo que puedan funcionar en entornos con recursos limitados.

Lea el artículo de investigación de Google DeepMind:

RecurrentGemma: Superando los transformadores para lograr modelos de lenguaje abierto eficientes (PDF) (PDF

Imagen destacada de Shutterstock/Photo For Everything

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales