El documento de investigación detalla un nuevo tipo de conjunto de datos para un diálogo abierto similar a la experiencia generativa de búsqueda de IA de Google
Google publicó un artículo de investigación sobre un nuevo tipo de conjunto de datos para entrenar un modelo de lenguaje para recuperar oraciones que respondan exactamente a una pregunta dentro de un diálogo abierto.
No sabemos si Google está utilizando este conjunto de datos. Pero los investigadores afirman que supera a los modelos entrenados en otros conjuntos de datos.
Muchos trabajos de investigación, como el publicado por LaMDA, no mencionan contextos específicos de cómo podría usarse.
Por ejemplo, el artículo de investigación de LaMDA (PDF) concluye vagamente: PDF
“LaMDA is a step closer to practical and safe open-ended dialog systems, which can in turn unlock a wide range of useful applications.”
“LaMDA está un paso más cerca de los sistemas de diálogo abiertos prácticos y seguros, que a su vez pueden desbloquear una amplia gama de aplicaciones útiles”.
Este trabajo de investigación establece que el problema que están resolviendo es cómo crear un conjunto de datos para entrenar una máquina para un diálogo abierto seleccionando una oración de una página web.
Por qué este conjunto de datos es importante
Lo que hace que este trabajo de investigación sea de interés es que los investigadores concluyen que podría usarse para fundamentar de manera objetiva la salida generativa de IA, como lo que se ve en la nueva experiencia generativa de búsqueda de Google.
Dado que el trabajo de investigación se presentó en una conferencia de recuperación de información (Proceedings of the 45th International ACM SIGIR Conference on Research and Development), es bastante seguro suponer que este algoritmo está relacionado con la recuperación de información, lo que significa búsqueda.
Una última cosa a tener en cuenta es que la investigación sobre este nuevo tipo de conjunto de datos se presentó el año pasado en 2022, pero aparentemente pasó desapercibida… hasta ahora.
Lo que Google se propuso lograr con el nuevo conjunto de datos
Los investigadores explican en qué se centran:
“In this paper we focus on open-ended dialogues: two parties converse in turns on any number of topics with no restrictions to the topic shifts and type of discussion on each topic.
In addition, the dialogue is not grounded to a specific document, in contrast to the setting used in some previous work…
The task we address is retrieving sentences from some document corpus that contain information useful for generating (either automatically or by humans) the next turn in the dialogue.
We note that the dialogue turns can be questions, queries, arguments, statements, etc.”
“En este documento nos enfocamos en diálogos abiertos: dos partes conversan por turnos sobre cualquier número de temas sin restricciones en los cambios de tema y el tipo de discusión sobre cada tema.
Además, el diálogo no se basa en un documento específico, a diferencia del escenario utilizado en algunos trabajos anteriores…
La tarea que abordamos es recuperar oraciones de algún corpus de documentos que contengan información útil para generar (ya sea automáticamente o por humanos) el siguiente turno en el diálogo.
Hacemos notar que los turnos de diálogo pueden ser preguntas, consultas, argumentos, declaraciones, etc.”
Un nuevo tipo de conjunto de datos para el entrenamiento del modelo de lenguaje
El problema que los investigadores están resolviendo es cómo recuperar una oración de una página web como respuesta a una pregunta abierta, un tipo de pregunta que necesita más que un sí o un no como respuesta.
El trabajo de investigación explica que lo que falta para que esa capacidad suceda en una máquina es un conjunto de datos de conversación apropiado.
Explican que los conjuntos de datos existentes se utilizan por dos razones:
- Para evaluar las respuestas de diálogo de una IA generativa, pero no para entrenarla para recuperar la información relevante para esa respuesta.
- Conjuntos de datos para uso de un motor de búsqueda o respuesta a preguntas, enfocados en un solo pasaje de una pregunta y respuesta.
Explican las deficiencias de los conjuntos de datos existentes:
“…in most of these datasets, the returned search results are not viewed as part of the dialogue.
…in both conversational passage retrieval and conversational QA datasets, there is a user asking questions or queries that reflect explicit intents with information needs, as opposed to natural dialogues where intents may be only implicitly represented, e.g., in affirmative statements.
To sum, existing conversational datasets do not combine natural human-human conversations with relevance annotations for sentences retrieved from a large document corpus.
We therefore constructed such a dataset…”
“…en la mayoría de estos conjuntos de datos, los resultados de búsqueda devueltos no se ven como parte del diálogo.
… tanto en la recuperación de pasajes conversacionales como en los conjuntos de datos de control de calidad conversacionales, hay un usuario que hace preguntas o consultas que reflejan intenciones explícitas con necesidades de información, a diferencia de los diálogos naturales donde las intenciones solo pueden representarse implícitamente, por ejemplo, en declaraciones afirmativas.
En resumen, los conjuntos de datos conversacionales existentes no combinan conversaciones naturales entre humanos con anotaciones de relevancia para oraciones recuperadas de un gran corpus de documentos.
Por lo tanto, construimos tal conjunto de datos…”
Cómo se creó el nuevo conjunto de datos
Los investigadores crearon un conjunto de datos que se puede usar para entrenar un algoritmo que puede recuperar una oración que es la respuesta correcta en un diálogo abierto.
El conjunto de datos consta de conversaciones de Reddit que se compararon con respuestas de Wikipedia, además de anotaciones humanas (clasificaciones de relevancia), de esos pares de preguntas y respuestas.
Los datos de Reddit se descargaron de Pushshift.io, un archivo de conversaciones de Reddit (preguntas frecuentes de Pushshift). Pushshift FAQ
El trabajo de investigación explica:
“To address a broader scope of this task where any type of dialogue can be used, we constructed a dataset that includes openended dialogues from Reddit, candidate sentences from Wikipedia for each dialogue and human annotations for the sentences.
The dataset includes 846 dialogues created from Reddit threads.
For each dialogue, 50 sentences were retrieved from Wikipedia using an unsupervised initial retrieval method.
These sentences were judged by crowd workers for relevance, that is, whether they contained information useful for generating the next turn in the dialogue.”
“Para abordar un alcance más amplio de esta tarea donde se puede usar cualquier tipo de diálogo, construimos un conjunto de datos que incluye diálogos abiertos de Reddit, oraciones candidatas de Wikipedia para cada diálogo y anotaciones humanas para las oraciones.
El conjunto de datos incluye 846 diálogos creados a partir de hilos de Reddit.
Para cada diálogo, se recuperaron 50 oraciones de Wikipedia utilizando un método de recuperación inicial no supervisado.
Estas oraciones fueron juzgadas por trabajadores de la multitud según su relevancia, es decir, si contenían información útil para generar el siguiente giro en el diálogo”.
El conjunto de datos que crearon está disponible en GitHub. is available at GitHub
Ejemplo de una pregunta de diálogo:
“Which came first, the chicken or the egg?”
«¿Que fue primero, la gallina o el huevo?»
Un ejemplo de una respuesta irrelevante:
“Domesticated chickens have been around for about 10,000 years. Eggs have been around for hundreds of millions of years.”
“Los pollos domesticados existen desde hace unos 10.000 años Los huevos han existido durante cientos de millones de años”.
Un ejemplo de una oración de página web correcta que se puede usar como respuesta es:
“Put more simply by Neil deGrasse Tyson:
‘Which came first: the chicken or the egg? The egg-laid by a bird that was not a chicken.’”
“Expuesto más simplemente por Neil deGrasse Tyson:
Metodología de recuperación
Para la parte de recuperación, citan investigaciones previas en modelos de lenguaje y otros métodos y se conforman con un enfoque de supervisión débil.
Ellos explican:
“Fine-tuning of retrieval models requires relevance labels for training examples in a target task.
These are sometimes scarce or unavailable.
One approach to circumvent this is to automatically generate labels and train a weakly supervised model on these annotations.
…We follow the weak supervision paradigm in our model training, with a novel weak Reddit annotator for retrieval in a dialogue context.”
“El ajuste fino de los modelos de recuperación requiere etiquetas de relevancia para ejemplos de entrenamiento en una tarea de destino.
Estos a veces son escasos o no están disponibles.
Un enfoque para eludir esto es generar etiquetas automáticamente y entrenar un modelo poco supervisado en estas anotaciones.
…Seguimos el paradigma de supervisión débil en nuestro modelo de entrenamiento, con un novedoso anotador débil de Reddit para la recuperación en un contexto de diálogo”.
¿Es exitoso el conjunto de datos?
Google y otras organizaciones publican muchos trabajos de investigación que demuestran diferentes niveles de éxito.
Algunas investigaciones concluyen con un éxito limitado, moviendo el estado del arte solo un poco, si es que lo hacen.
Los trabajos de investigación que son de interés (para mí) son los que son claramente exitosos y superan el estado actual del arte.
Ese es el caso con el desarrollo de este conjunto de datos para entrenar un modelo de lenguaje para recuperar oraciones que sirvan con precisión como un giro en un diálogo abierto.
Afirman cómo un modelo BERT entrenado con este conjunto de datos se vuelve aún más poderoso.
Escriben:
“Indeed, while RANKBERTMS outperforms all non-fine-tuned models, the RANKBERTMS→R model, which was further fine-tuned using our weakly supervised training set, improves the performance.
This method attains the highest performance with all performance gains over other methods being statistically significant.
This finding also demonstrates the effectiveness of our weak annotator and weakly supervised training set, showing that performance can be improved without manual annotation for training.”
“De hecho, mientras que RANKBERTMS supera a todos los modelos sin ajuste fino, el modelo RANKBERTMS→R, que se ajustó aún más utilizando nuestro conjunto de entrenamiento supervisado débilmente, mejora el rendimiento.
Este método alcanza el rendimiento más alto y todas las ganancias de rendimiento sobre otros métodos son estadísticamente significativas.
Este hallazgo también demuestra la eficacia de nuestro anotador débil y nuestro conjunto de entrenamiento supervisado débilmente, lo que demuestra que el rendimiento se puede mejorar sin la anotación manual para el entrenamiento”.
En otro lugar, los investigadores informan:
“We show that a neural ranker which was fined-tuned using our weakly supervised training set outperforms all other tested models, including a neural ranker fine-tuned on the MS Marco passage retrieval dataset.”
«Demostramos que un clasificador neuronal que se ajustó utilizando nuestro conjunto de entrenamiento supervisado débilmente supera a todos los demás modelos probados, incluido un clasificador neuronal ajustado en el conjunto de datos de recuperación de pasajes de MS Marco».
También escriben que, a pesar de lo exitoso que es este enfoque, están interesados en promover el estado del arte incluso más de lo que ya lo han hecho.
El trabajo de investigación concluye:
“In future work, we would like to devise BERT-based retrieval models that are trained based on weak supervision alone, using a pre-trained BERT, without the need for large annotated training sets like MS Marco.
We would also like to ground generative language models with our retrieval models and study the conversations that emerge from such grounding.”
“En el trabajo futuro, nos gustaría diseñar modelos de recuperación basados en BERT que se entrenen solo con una supervisión débil, utilizando un BERT preentrenado, sin la necesidad de grandes conjuntos de entrenamiento anotados como MS Marco.
También nos gustaría poner a tierra los modelos de lenguaje generativo con nuestros modelos de recuperación y estudiar las conversaciones que surgen de esa puesta a tierra”.
¿Podría este enfoque estar en uso?
Google rara vez confirma cuándo se utiliza una investigación específica Hay algunos casos, como con BERT, donde Google confirma que lo está usando.
Pero, en general, la respuesta estándar es que el hecho de que Google publique un artículo de investigación o una patente no significa que lo esté utilizando en su algoritmo de búsqueda.
Dicho esto, el trabajo de investigación, que data de mediados de 2022, indicó que una dirección futura era estudiar cómo los modelos de lenguaje generativo (que es como Bard y la experiencia generativa de búsqueda de Google) pueden basarse en él.
Una experiencia de chat generativo de IA puede hacer que la salida de la IA invente cosas, lo que técnicamente se conoce como alucinaciones.
Conexión a tierra significa anclar la salida del chat de IA con hechos, generalmente de fuentes en línea, para ayudar a prevenir alucinaciones.
Bing usa un sistema llamado Bing Orchestrator que verifica las páginas web para fundamentar la salida de GPT en hechos.
Poner a tierra la salida de la IA ayuda a mantenerla en los hechos, que es algo que este conjunto de datos puede hacer, además de seleccionar oraciones de páginas web como parte de una respuesta.
Lea el documento de investigación:
Página web abstracta: un conjunto de datos para la recuperación de oraciones para diálogos abiertos A Dataset for Sentence Retrieval for Open-Ended Dialogues
Documento de investigación real: un conjunto de datos para la recuperación de oraciones para diálogos abiertos A Dataset for Sentence Retrieval for Open-Ended Dialogues
Imagen destacada de Shutterstock/Camilo Concha
Leer el articulo original en Search Engine Journal.