Contenidos
La atención Infini de Google se puede agregar fácilmente a los modelos existentes, incluidos los del algoritmo central de Google.
Google ha publicado un artículo de investigación sobre una nueva tecnología llamada Infini-attention que le permite procesar grandes cantidades de datos con «contextos infinitamente largos» y al mismo tiempo es capaz de insertarse fácilmente en otros modelos para mejorar enormemente sus capacidades.
Esa última parte debería ser de interés para quienes estén interesados en el algoritmo de Google. Infini-attention es plug-and-play, lo que significa que es relativamente fácil de insertar en otros modelos, incluidos los que utiliza el algoritmo central de Google. La parte sobre «contextos infinitamente largos» puede tener implicaciones sobre cómo se pueden actualizar algunos de los sistemas de búsqueda de Google.
El nombre del trabajo de investigación es: No dejar ningún contexto atrás: transformadores eficientes de contexto infinito con atención infinita
La memoria es computacionalmente costosa para los LLM
Los modelos de lenguajes grandes (LLM) tienen limitaciones en cuanto a la cantidad de datos que pueden procesar a la vez porque la complejidad computacional y el uso de la memoria pueden aumentar significativamente. Infini-Attention le brinda al LLM la capacidad de manejar contextos más largos mientras mantiene la memoria baja y la potencia de procesamiento necesarias.
El artículo de investigación explica:
“Memory serves as a cornerstone of intelligence, as it enables efficient computations tailored to specific contexts. However, Transformers …and Transformer-based LLMs …have a constrained context-dependent memory, due to the nature of the attention mechanism.
Indeed, scaling LLMs to longer sequences (i.e. 1M tokens) is challenging with the standard Transformer architectures and serving longer and longer context models becomes costly financially.”
“La memoria es la piedra angular de la inteligencia, ya que permite realizar cálculos eficientes adaptados a contextos específicos. Sin embargo, los Transformers… y los LLM basados en Transformer… tienen una memoria dependiente del contexto restringida, debido a la naturaleza del mecanismo de atención.
De hecho, escalar los LLM a secuencias más largas (es decir, 1 millón de tokens) es un desafío con las arquitecturas estándar de Transformer y servir modelos de contexto cada vez más largos se vuelve costoso desde el punto de vista financiero”.
Y en otra parte el artículo de investigación explica:
“Current transformer models are limited in their ability to process long sequences due to quadratic increases in computational and memory costs. Infini-attention aims to address this scalability issue.”
“Los modelos de transformadores actuales tienen una capacidad limitada para procesar secuencias largas debido a aumentos cuadráticos en los costos computacionales y de memoria. Infini-attention tiene como objetivo abordar este problema de escalabilidad”.
Los investigadores plantearon la hipótesis de que la atención Infini puede escalar para manejar secuencias extremadamente largas con Transformers sin los aumentos habituales en los recursos computacionales y de memoria.
Tres características importantes
Infini-attention de Google resuelve las deficiencias de los modelos de transformadores al incorporar tres características que permiten a los LLM basados en transformadores manejar secuencias más largas sin problemas de memoria y les permiten usar el contexto de datos anteriores en la secuencia y relacionarlos con el contexto más alejado hacia el
Las características de Infini-Attention
- Sistema de memoria compresiva
- Atención lineal a largo plazo
- Atención local enmascarada
Sistema de memoria compresiva
La atención infinita utiliza lo que se llama un sistema de memoria compresiva A medida que se ingresan más datos (como parte de una larga secuencia de datos), el sistema de memoria compresiva comprime parte de la información más antigua para reducir la cantidad de espacio necesario para almacenar los datos.
Atención lineal a largo plazo
La atención infinita también utiliza lo que se denomina «mecanismos de atención lineal a largo plazo» que permiten al LLM procesar datos que existen anteriormente en la secuencia.
Esto es importante para tareas donde el contexto existe en un plano más amplio de datos. Es como poder discutir un libro completo dentro del contexto de todos los capítulos y explicar cómo el primer capítulo se relaciona con otro capítulo en el medio del libro.
Atención local enmascarada
Además de la atención a largo plazo, Infini-attention también utiliza la llamada atención local enmascarada. Este tipo de atención procesa partes cercanas (localizadas) de los datos de entrada, lo que resulta útil para respuestas que dependen de partes más cercanas de los datos.
Combinar la atención local y a largo plazo ayuda a resolver el problema de que los transformadores se limiten a la cantidad de datos de entrada que pueden recordar y utilizar para el contexto.
Los investigadores explican:
“The Infini-attention incorporates a compressive memory into the vanilla attention mechanism and builds in both masked local attention and long-term linear attention mechanisms in a single Transformer block.”
«La atención Infini incorpora una memoria compresiva en el mecanismo de atención básico y construye tanto mecanismos de atención local enmascarada como de atención lineal a largo plazo en un solo bloque Transformer».
Resultados de experimentos y pruebas.
Infini-attention se probó con modelos regulares para compararlos en múltiples puntos de referencia que involucran secuencias de entrada largas, como modelado de lenguaje de contexto largo, recuperación de claves de acceso y tareas de resumen de libros. La recuperación de claves de acceso es una prueba en la que el modelo de lenguaje tiene que recuperar datos específicos dentro de una secuencia de texto extremadamente larga.
Lista de las tres pruebas:
- Modelado de lenguaje de contexto largo
- Prueba de clave de acceso
- Resumen del libro
Modelado del lenguaje de contexto largo y puntuación de perplejidad
Los investigadores escriben que los modelos con atención Infini superaron a los modelos de referencia y que aumentar la duración de la secuencia de entrenamiento trajo mejoras aún mayores en la puntuación de Perplejidad. La puntuación de perplejidad es una métrica que mide el rendimiento del modelo de lenguaje; puntuaciones más bajas indican un mejor rendimiento.
Los investigadores compartieron sus hallazgos:
“Infini-Transformer outperforms both Transformer-XL …and Memorizing Transformers baselines while maintaining 114x less memory parameters than the Memorizing Transformer model with a vector retrieval-based KV memory with length of 65K at its 9th layer. Infini-Transformer outperforms memorizing transformers with memory length of 65K and achieves 114x compression ratio.
We further increased the training sequence length to 100K from 32K and trained the models on Arxiv-math dataset. 100K training further decreased the perplexity score to 2.21 and 2.20 for Linear and Linear + Delta models.”
“Infini-Transformer supera las líneas base de Transformer-XL… y Memorizing Transformers mientras mantiene 114 veces menos parámetros de memoria que el modelo Memorizing Transformer con una memoria KV basada en recuperación vectorial con una longitud de 65K en su novena capa. Infini-Transformer supera a los transformadores de memorización con una longitud de memoria de 65K y logra una relación de compresión de 114x.
Aumentamos aún más la longitud de la secuencia de entrenamiento de 32K a 100K y entrenamos los modelos en el conjunto de datos Arxiv-math. El entrenamiento de 100K redujo aún más la puntuación de perplejidad a 2,21 y 2,20 para los modelos Linear y Linear + Delta”.
Prueba de clave de acceso
La prueba de clave de acceso consiste en ocultar un número aleatorio dentro de una secuencia de texto larga y la tarea es que el modelo debe recuperar el texto oculto. La clave de acceso está oculta cerca del principio, en la mitad o al final del texto extenso. El modelo pudo resolver la prueba de clave de acceso hasta una longitud de 1 millón.
“A 1B LLM naturally scales to 1M sequence length and solves the passkey retrieval task when injected with Infini-attention. Infini-Transformers solved the passkey task with up to 1M context length when fine-tuned on 5K length inputs. We report token-level retrieval accuracy for passkeys hidden in a different part (start/middle/end) of long inputs with lengths 32K to 1M.”
“Un 1B LLM escala naturalmente a una longitud de secuencia de 1M y resuelve la tarea de recuperación de la clave de acceso cuando se le inyecta Infini-attention Infini-Transformers resolvió la tarea de la clave de acceso con una longitud de contexto de hasta 1 M cuando se ajustó en entradas de 5 K de longitud Informamos la precisión de recuperación a nivel de token para claves de acceso ocultas en una parte diferente (inicio/medio/final) de entradas largas con longitudes de 32K a 1M”.
Prueba de resumen del libro
Infini-attention también se destacó en la prueba de resumen del libro al superar los principales puntos de referencia y alcanzar nuevos niveles de rendimiento de última generación (SOTA).
Los resultados se describen:
“Finally, we show that a 8B model with Infini-attention reaches a new SOTA result on a 500K length book summarization task after continual pre-training and task fine-tuning.
…We further scaled our approach by continuously pre-training a 8B LLM model with 8K input length for 30K steps. We then fine-tuned on a book summarization task, BookSum (Kry´sci´nski et al., 2021) where the goal is to generate a summary of an entire book text.
Our model outperforms the previous best results and achieves a new SOTA on BookSum by processing the entire text from book. …There is a clear trend showing that with more text provided as input from books, our Infini-Transformers improves its summarization performance metric.”
“Finalmente, mostramos que un modelo 8B con atención Infini alcanza un nuevo resultado SOTA en una tarea de resumen de un libro de 500 000 de extensión después de un entrenamiento previo continuo y un ajuste fino de la tarea.
…Ampliamos aún más nuestro enfoque mediante el entrenamiento previo continuo de un modelo 8B LLM con una longitud de entrada de 8K para pasos de 30K Luego afinamos una tarea de resumen de libros, BookSum (Kry´sci´nski et al., 2021), donde el objetivo es generar un resumen del texto completo de un libro.
Nuestro modelo supera los mejores resultados anteriores y logra un nuevo SOTA en BookSum al procesar todo el texto del libro. …Existe una tendencia clara que muestra que al proporcionar más texto como entrada de libros, nuestros Infini-Transformers mejoran su métrica de rendimiento de resumen”.
Implicaciones de la atención infinita para el SEO
Infini-attention es un gran avance en el modelado de atención de largo y corto alcance con mayor eficiencia que los modelos anteriores sin Infini-attention. También admite “preentrenamiento continuo plug-and-play y adaptación por diseño al contexto a largo plazo”, lo que significa que se puede integrar fácilmente en los modelos existentes.
Por último, el «entrenamiento previo continuo y adaptación al contexto a largo plazo» lo hace ideal para escenarios en los que hay un flujo de datos nuevos que es necesario agregar constantemente para entrenar un modelo. Esa última parte es muy interesante porque puede resultar útil para aplicaciones en la parte posterior de los sistemas de búsqueda de Google, particularmente cuando es necesario poder analizar largas secuencias de información y comprender la relevancia de una parte cerca del comienzo de la secuencia.
El hecho de que los investigadores afirmen «entradas infinitamente largas» es sorprendente, pero lo que es realmente importante para el SEO es que este mecanismo es la capacidad de manejar largas secuencias de datos para «no dejar ningún contexto atrás», así como el aspecto plug and play de
Lea el trabajo de investigación:
No deje ningún contexto atrás: transformadores de contexto infinitos eficientes con atención infinita Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
Imagen destacada de Shutterstock/JHVEPhoto
Leer el articulo original en Search Engine Journal.