Los investigadores amplían GPT-4 con un nuevo método de indicación

La investigación de Microsoft revela nuevas técnicas de ingeniería rápida que hacen que GPT-4 alcance niveles de rendimiento previamente imposibles

Microsoft publicó un estudio de investigación que demuestra cómo las técnicas de indicaciones avanzadas pueden hacer que una IA generalista como GPT-4 funcione tan bien o mejor que una IA especializada entrenada para un tema específico. Los investigadores descubrieron que podían hacer que GPT-4 superara al modelo Med-PaLM 2 especialmente entrenado de Google que fue entrenado explícitamente en ese tema.

Técnicas avanzadas de indicaciones

Los resultados de esta investigación confirman los conocimientos que los usuarios avanzados de IA generativa han descubierto y están utilizando para generar imágenes o textos sorprendentes.

Las indicaciones avanzadas se conocen generalmente como ingeniería rápida. Si bien algunos pueden burlarse de que la estimulación puede ser tan profunda como para justificar el nombre de ingeniería, el hecho es que las técnicas de estimulación avanzadas se basan en principios sólidos y los resultados de este estudio de investigación subrayan este hecho.

Por ejemplo, una técnica utilizada por los investigadores, el razonamiento en cadena de pensamiento (CoT), es una que muchos usuarios avanzados de IA generativa han descubierto y utilizado de manera productiva.

Las indicaciones en cadena de pensamiento son un método descrito por Google alrededor de mayo de 2022 que permite a la IA dividir una tarea en pasos basándose en el razonamiento.

Escribí sobre el artículo de investigación de Google sobre el razonamiento en cadena de pensamiento que permitía a una IA dividir una tarea en pasos, dándole la capacidad de resolver cualquier tipo de problemas planteados (incluidos los matemáticos) y lograr un razonamiento con sentido común.

Estos principios eventualmente se abrieron camino en cómo los usuarios de IA generativa obtuvieron resultados de alta calidad, ya sea creando imágenes o texto.

Peter Hatherley (perfil de Facebook), fundador de las suites de aplicaciones web Authored Intelligence, elogió la utilidad de la cadena de pensamiento: Facebook profile

“Chain of thought prompting takes your seed ideas and turns them into something extraordinary.”

«La cadena de pensamiento toma tus ideas iniciales y las convierte en algo extraordinario».

Peter también señaló que incorpora CoT en sus GPT personalizados para potenciarlos.

La cadena de pensamiento (CoT) evolucionó a partir del descubrimiento de que pedirle algo a una IA generativa no es suficiente porque el resultado siempre será inferior al ideal.

Lo que hacen las indicaciones de CoT es describir los pasos que la IA generativa debe seguir para obtener el resultado deseado.

El gran avance de la investigación es que el uso del razonamiento CoT más otras dos técnicas les permitió alcanzar niveles sorprendentes de calidad más allá de lo que se sabía que era posible.

Esta técnica se llama Medprompt.

Medprompt demuestra el valor de las técnicas de indicación avanzadas

Los investigadores probaron su técnica con cuatro modelos de cimentación diferentes:

  1. Flan-PaLM 540B
  2. Med-PaLM 2
  3. GPT-4
  4. Aviso médico GPT-4

Utilizaron conjuntos de datos de referencia creados para probar el conocimiento médico. Algunas de estas pruebas eran de razonamiento, otras eran preguntas de exámenes de la junta médica.

Cuatro conjuntos de datos de evaluación comparativa médica

  1. MedQA (PDF)
  2. PubMedQA (PDF)
  3. MedMCQA (PDF)
  4. MMLU (Comprensión masiva del lenguaje multitarea) (PDF)

GPT-4 que utiliza Medprompt superó absolutamente a todos los competidores con los que se probó en los cuatro conjuntos de datos relacionados con la medicina.

La tabla muestra cómo Medprompt superó a otros modelos de fundaciones

Screenshot showing how Medprompt performance scores exceeded those of more advanced specialist foundation models

Por qué es importante Medprompt

Los investigadores descubrieron que el uso del razonamiento CoT, junto con otras estrategias de estimulación, podría hacer que un modelo básico general como GPT-4 supere a los modelos especializados que fueron entrenados en un solo dominio (área de conocimiento).

Lo que hace que esta investigación sea especialmente relevante para todos los que utilizan la IA generativa es que la técnica MedPrompt se puede utilizar para obtener resultados de alta calidad en cualquier área de conocimiento, no solo en el ámbito médico.

Las implicaciones de este avance es que puede que no sea necesario gastar grandes cantidades de recursos en capacitar a un modelo de lenguaje grande especializado para que sea un experto en un área específica.

Sólo es necesario aplicar los principios de Medprompt para obtener resultados de IA generativa excepcionales.

Tres estrategias de estímulo

Los investigadores describieron tres estrategias de estímulo:

  1. Selección dinámica de pocos disparos
  2. Cadena de pensamiento autogenerada
  3. Conjunto aleatorio elegido

Selección dinámica de pocos disparos

La selección dinámica de pocos disparos permite que el modelo de IA seleccione ejemplos relevantes durante el entrenamiento.

El aprendizaje en pocas oportunidades es una forma para que el modelo fundamental aprenda y se adapte a tareas específicas con solo unos pocos ejemplos.

En este método, los modelos aprenden de un conjunto relativamente pequeño de ejemplos (a diferencia de miles de millones de ejemplos), con el objetivo de que los ejemplos sean representativos de una amplia gama de preguntas relevantes para el dominio del conocimiento.

Tradicionalmente, los expertos crean manualmente estos ejemplos, pero es un desafío garantizar que cubran todas las posibilidades. Una alternativa, llamada aprendizaje dinámico de pocos intentos, utiliza ejemplos que son similares a las tareas que el modelo necesita resolver, ejemplos que se eligen de un conjunto de datos de entrenamiento más grande.

En la técnica Medprompt, los investigadores seleccionaron ejemplos de entrenamiento que son semánticamente similares a un caso de prueba determinado. Este enfoque dinámico es más eficiente que los métodos tradicionales, ya que aprovecha los datos de entrenamiento existentes sin requerir actualizaciones extensas del modelo.

Cadena de pensamiento autogenerada

La técnica de Cadena de pensamiento autogenerada utiliza declaraciones en lenguaje natural para guiar el modelo de IA con una serie de pasos de razonamiento, automatizando la creación de ejemplos de cadena de pensamiento, lo que lo libera de depender de expertos humanos.

El artículo de investigación explica:

“Chain-of-thought (CoT) uses natural language statements, such as “Let’s think step by step,” to explicitly encourage the model to generate a series of intermediate reasoning steps.

The approach has been found to significantly improve the ability of foundation models to perform complex reasoning.

Most approaches to chain-of-thought center on the use of experts to manually compose few-shot examples with chains of thought for prompting. Rather than rely on human experts, we pursued a mechanism to automate the creation of chain-of-thought examples.

We found that we could simply ask GPT-4 to generate chain-of-thought for the training examples using the following prompt:

Self-generated Chain-of-thought Template
## Question: {{question}}
{{answer_choices}}
## Answer
model generated chain of thought explanation
Therefore, the answer is [final model answer (e.g. A,B,C,D)]"

“La cadena de pensamiento (CoT) utiliza declaraciones en lenguaje natural, como “Pensemos paso a paso”, para alentar explícitamente al modelo a generar una serie de pasos de razonamiento intermedios.

Se ha descubierto que este enfoque mejora significativamente la capacidad de los modelos básicos para realizar razonamientos complejos.

La mayoría de los enfoques de la cadena de pensamiento se centran en el uso de expertos para componer manualmente ejemplos de pocas tomas con cadenas de pensamiento como motivación. En lugar de depender de expertos humanos, buscamos un mecanismo para automatizar la creación de ejemplos de cadenas de pensamiento.

Descubrimos que simplemente podíamos pedirle a GPT-4 que generara una cadena de pensamiento para los ejemplos de capacitación utilizando el siguiente mensaje:

Self-generated Chain-of-thought Template
## Question: {{question}}
{{answer_choices}}
## Answer
model generated chain of thought explanation
Therefore, the answer is [final model answer (e.g. A,B,C,D)]"

Los investigadores se dieron cuenta de que este método podría producir resultados erróneos (conocidos como resultados alucinados). Resolvieron este problema pidiéndole a GPT-4 que realizara un paso de verificación adicional.

Así lo hicieron los investigadores:

“A key challenge with this approach is that self-generated CoT rationales have an implicit risk of including hallucinated or incorrect reasoning chains.

We mitigate this concern by having GPT-4 generate both a rationale and an estimation of the most likely answer to follow from that reasoning chain.

If this answer does not match the ground truth label, we discard the sample entirely, under the assumption that we cannot trust the reasoning.

While hallucinated or incorrect reasoning can still yield the correct final answer (i.e. false positives), we found that this simple label-verification step acts as an effective filter for false negatives.”

“Un desafío clave con este enfoque es que los fundamentos de CoT autogenerados tienen un riesgo implícito de incluir cadenas de razonamiento alucinadas o incorrectas.

Mitigamos esta preocupación haciendo que GPT-4 genere tanto una justificación como una estimación de la respuesta más probable a seguir de esa cadena de razonamiento.

Si esta respuesta no coincide con la etiqueta de verdad fundamental, descartamos la muestra por completo, bajo el supuesto de que no podemos confiar en el razonamiento.

Si bien el razonamiento alucinado o incorrecto aún puede producir la respuesta final correcta (es decir, falsos positivos), descubrimos que este simple paso de verificación de la etiqueta actúa como un filtro eficaz para los falsos negativos”.

Conjunto de mezcla aleatoria elegido

Un problema con la respuesta a preguntas de opción múltiple es que los modelos básicos (GPT-4 es un modelo fundamental) pueden exhibir un sesgo de posición.

Tradicionalmente, el sesgo de posición es una tendencia que tienen los humanos a seleccionar las mejores opciones en una lista de opciones.

Por ejemplo, una investigación ha descubierto que si a los usuarios se les presenta una lista de resultados de búsqueda, la mayoría de las personas tienden a seleccionar entre los resultados principales, incluso si los resultados son incorrectos. Sorprendentemente, los modelos de cimentación exhiben el mismo comportamiento.

Los investigadores crearon una técnica para combatir el sesgo de posición cuando el modelo básico se enfrenta a responder una pregunta de opción múltiple.

Este enfoque aumenta la diversidad de respuestas al derrotar lo que se llama «decodificación codiciosa», que es el comportamiento de modelos básicos como GPT-4 de elegir la palabra o frase más probable en una serie de palabras o frases.

En la decodificación codiciosa, en cada paso de generar una secuencia de palabras (o en el contexto de una imagen, píxeles), el modelo elige la palabra/frase/píxel más probable (también conocido como token) en función de su contexto actual.

El modelo toma una decisión en cada paso sin considerar el impacto en la secuencia general.

Choice Shuffling Ensemble resuelve dos problemas:

  1. Sesgo de posición
  2. Decodificación codiciosa

Así se explica:

“To reduce this bias, we propose shuffling the choices and then checking consistency of the answers for the different sort orders of the multiple choice.

As a result, we perform choice shuffle and self-consistency prompting. Self-consistency replaces the naive single-path or greedy decoding with a diverse set of reasoning paths when prompted multiple times at some temperature> 0, a setting that introduces a degree of randomness in generations.

With choice shuffling, we shuffle the relative order of the answer choices before generating each reasoning path. We then select the most consistent answer, i.e., the one that is least sensitive to choice shuffling.

Choice shuffling has an additional benefit of increasing the diversity of each reasoning path beyond temperature sampling, thereby also improving the quality of the final ensemble.

We also apply this technique in generating intermediate CoT steps for training examples. For each example, we shuffle the choices some number of times and generate a CoT for each variant. We only keep the examples with the correct answer.”

“Para reducir este sesgo, proponemos barajar las opciones y luego verificar la coherencia de las respuestas para los diferentes órdenes de clasificación de la opción múltiple.

Como resultado, realizamos una selección aleatoria de opciones y sugerencias de autoconsistencia. La autoconsistencia reemplaza la ingenua decodificación de un solo camino o la codiciosa decodificación con un conjunto diverso de caminos de razonamiento cuando se le solicita varias veces a una temperatura > 0, una configuración que introduce un grado de aleatoriedad en generaciones.

Con la combinación aleatoria de opciones, mezclamos el orden relativo de las opciones de respuesta antes de generar cada ruta de razonamiento. Luego seleccionamos la respuesta más consistente, es decir, la que es menos sensible a la mezcla de opciones.

La combinación de opciones tiene el beneficio adicional de aumentar la diversidad de cada ruta de razonamiento más allá del muestreo de temperatura, mejorando así también la calidad del conjunto final.

También aplicamos esta técnica para generar pasos CoT intermedios para ejemplos de capacitación. Para cada ejemplo, mezclamos las opciones varias veces y generamos un CoT para cada variante. Sólo conservamos los ejemplos con la respuesta correcta”.

Por lo tanto, al barajar opciones y juzgar la coherencia de las respuestas, este método no sólo reduce el sesgo sino que también contribuye a un rendimiento de última generación en conjuntos de datos de referencia, superando a modelos sofisticados especialmente entrenados como Med-PaLM 2.

Éxito entre dominios mediante ingeniería rápida

Por último, lo que hace que este trabajo de investigación sea increíble es que los logros son aplicables no sólo al ámbito médico, sino que la técnica se puede utilizar en cualquier tipo de contexto de conocimiento.

Los investigadores escriben:

“We note that, while Medprompt achieves record performance on medical benchmark datasets, the algorithm is general purpose and is not restricted to the medical domain or to multiple choice question answering.

We believe the general paradigm of combining intelligent few-shot exemplar selection, self-generated chain of thought reasoning steps, and majority vote ensembling can be broadly applied to other problem domains, including less constrained problem solving tasks.”

“Observamos que, si bien Medprompt logra un rendimiento récord en conjuntos de datos de referencia médica, el algoritmo es de propósito general y no se limita al ámbito médico ni a la respuesta a preguntas de opción múltiple.

Creemos que el paradigma general de combinar una selección inteligente de ejemplos de pocos intentos, una cadena de pasos de razonamiento de pensamiento autogenerados y un conjunto de votos mayoritarios se puede aplicar ampliamente a otros dominios de problemas, incluidas las tareas de resolución de problemas menos restringidas”.

Este es un logro importante porque significa que los resultados sobresalientes se pueden utilizar en prácticamente cualquier tema sin tener que pasar por el gasto y el tiempo de entrenar intensamente un modelo en dominios de conocimiento específicos.

Qué significa Medprompt para la IA generativa

Medprompt ha revelado una nueva forma de obtener capacidades mejoradas del modelo, haciendo que la IA generativa sea más adaptable y versátil en una variedad de dominios de conocimiento con mucho menos entrenamiento y esfuerzo de lo que se pensaba anteriormente.

Las implicaciones para el futuro de la IA generativa son profundas, sin mencionar cómo esto puede influir en la habilidad de la ingeniería rápida.

Lea el nuevo artículo de investigación:

¿Pueden los modelos de fundación generalistas superar a la optimización para fines especiales? Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine (PDF)

Imagen destacada de Shutterstock/Asier Romero

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales