Modelo de lenguaje de código abierto llamado Dolly 2.0 entrenado de manera similar a ChatGPT

Dolly 2.0 entrenó en un conjunto de datos de avisos y respuestas 100 % generado por humanos y de código abierto

Databricks anunció el lanzamiento del primer modelo de lenguaje ajustado a las instrucciones de código abierto, llamado Dolly 2.0 Fue entrenado utilizando una metodología similar a InstructGPT pero con un conjunto de datos de mayor calidad que es 100% de código abierto.

Este modelo es de uso gratuito, incluso con fines comerciales, porque cada parte del modelo es 100 % de código abierto.

Capacitación en instrucción de código abierto

Lo que hace que ChatGPT pueda seguir instrucciones es la capacitación que recibe utilizando las técnicas descritas en el artículo de investigación de InstructGPT. InstructGPT research paper

El avance descubierto con InstructGPT es que los modelos de lenguaje no necesitan conjuntos de entrenamiento cada vez más grandes.

Al usar el entrenamiento de preguntas y respuestas evaluado por humanos, OpenAI pudo entrenar un mejor modelo de lenguaje usando cien veces menos parámetros que el modelo anterior, GPT-3.

Databricks usó un enfoque similar para crear un conjunto de datos de solicitud y respuesta llamado they call databricks-dolly-15k.

Su conjunto de datos de solicitud/respuesta se creó sin raspar foros web o Reddit.

databricks-dolly-15k es un conjunto de datos creado por empleados de Databricks, 15 000 pares de mensajes y respuestas 100 % originales y generados por humanos, diseñados para entrenar el modelo de lenguaje Dolly 2.0 de la misma manera que el modelo ChatGPT se creó con InstructGPT.

La página Hugging Face para el conjunto de datos explica cómo lo hicieron: Hugging Face page for the dataset

“databricks-dolly-15k is an open source dataset of instruction-following records used in training databricks/dolly-v2-12b that was generated by thousands of Databricks employees in several of the behavioral categories outlined in the InstructGPT paper, including brainstorming, classification, closed QA, generation, information extraction, open QA, and summarization.

…Databricks employees were invited to create prompt / response pairs in each of eight different instruction categories, including the seven outlined in the InstructGPT paper, as well as an open-ended free-form category.

The contributors were instructed to avoid using information from any source on the web with the exception of Wikipedia (for particular subsets of instruction categories), and explicitly instructed to avoid using generative AI in formulating instructions or responses. Examples of each behavior were provided to motivate the types of questions and instructions appropriate to each category.

Halfway through the data generation process, contributors were given the option of answering questions posed by other contributors. They were asked to rephrase the original question and only select questions they could be reasonably expected to answer correctly.”

“databricks-dolly-15k es un conjunto de datos de código abierto de registros de seguimiento de instrucciones que se usa para capacitar a databricks/dolly-v2-12b que fue generado por miles de empleados de Databricks en varias de las categorías de comportamiento descritas en el documento de InstructGPT, incluida la lluvia de ideas, la clasificación

…Se invitó a los empleados de Databricks a crear pares de mensaje/respuesta en cada una de las ocho categorías de instrucción diferentes, incluidas las siete descritas en el documento InstructGPT, así como una categoría de forma libre abierta.

Se instruyó a los colaboradores para que evitaran el uso de información de cualquier fuente en la web, con la excepción de Wikipedia (para subconjuntos particulares de categorías de instrucciones), y se les instruyó explícitamente para que evitaran el uso de IA generativa en la formulación de instrucciones o respuestas. Se proporcionaron ejemplos de cada comportamiento para motivar los tipos de preguntas e instrucciones apropiadas para cada categoría.

A la mitad del proceso de generación de datos, a los colaboradores se les dio la opción de responder a las preguntas planteadas por otros colaboradores. Se les pidió que reformularan la pregunta original y solo seleccionaran las preguntas que razonablemente se podía esperar que respondieran correctamente”.

Databricks afirma que este puede ser el primer conjunto de datos de instrucciones generado por humanos creado para entrenar un modelo de lenguaje para seguir instrucciones, tal como lo hace ChatGPT.

El desafío era crear un conjunto de datos 100% original que no tuviera ningún vínculo con ChatGPT o cualquier otra fuente con una licencia restrictiva.

Los empleados fueron incentivados por un concurso para contribuir a generar las 15 000 sugerencias/respuestas en siete categorías de tareas, como lluvia de ideas, clasificación y escritura creativa.

Databricks afirma que el conjunto de entrenamiento databricks-dolly-15k puede ser superior al conjunto de datos utilizado para entrenar ChatGPT.

Señalan que aunque su conjunto de datos es más pequeño que el utilizado para entrenar el modelo Stanford Alpaca, su modelo funcionó mejor porque sus datos son de mayor calidad.

Escriben:

“Dolly 2.0 model, based on EleutherAI’s pythia-12b, exhibited high-quality instruction following behavior. In hindsight, this isn’t surprising.

Many of the instruction tuning datasets released in recent months contain synthesized data, which often contains hallucinations and factual errors.

databricks-dolly-15k, on the other hand, is generated by professionals, is high quality, and contains long answers to most tasks.

…we don’t expect Dolly to be state-of-the-art in terms of effectiveness.

However, we do expect Dolly and the open source dataset will act as the seed for a multitude of follow-on works, which may serve to bootstrap even more powerful language models.”

“El modelo Dolly 2.0, basado en pythia-12b de EleutherAI, exhibió instrucciones de alta calidad siguiendo el comportamiento En retrospectiva, esto no es sorprendente.

Muchos de los conjuntos de datos de ajuste de instrucciones publicados en los últimos meses contienen datos sintetizados, que a menudo contienen alucinaciones y errores fácticos.

databricks-dolly-15k, por otro lado, es generado por profesionales, es de alta calidad y contiene respuestas largas para la mayoría de las tareas.

…no esperamos que Dolly sea lo último en términos de efectividad.

Sin embargo, esperamos que Dolly y el conjunto de datos de código abierto actúen como la semilla para una multitud de trabajos de seguimiento, que pueden servir para impulsar modelos de lenguaje aún más poderosos”.

Limitaciones del conjunto de datos

La página de GitHub para el conjunto de datos reconoce que puede haber algunas deficiencias en el conjunto de datos.

Los datos de Wikipedia se utilizaron para parte de la capacitación en el contexto de la creación de indicaciones y respuestas. Por lo tanto, es posible que cualquier sesgo contenido en Wikipedia termine reflejado en el conjunto de datos resultante.

Algunos de los empleados que trabajaron para crear el conjunto de datos no eran hablantes nativos de inglés, lo que podría introducir algunas anomalías en el conjunto de datos.

La composición demográfica de los empleados que crearon el conjunto de datos puede influir en el conjunto de datos para que contenga sesgos que son peculiares de esos empleados.

A pesar de esas posibles deficiencias en el conjunto de datos, Databricks expresó que el suyo es de mayor calidad.

Además, Dolly 2.0 está destinado a servir como punto de partida para que otros creen e innoven versiones aún mejores.

Databricks insiste en que la IA de código abierto es mejor

Una de las motivaciones detrás de la creación de Dolly 2.0 es que los usuarios de los datos pueden poseer los modelos que crearon y pueden proteger mejor sus datos al no tener que compartirlos con un tercero.

También creen que la seguridad de la IA no debe concentrarse en manos de tres grandes corporaciones, sino repartirse entre todas las partes interesadas.

El código abierto está cobrando impulso y será interesante ver dónde se encuentra esta industria en los próximos dos años.

Puede encontrar más información sobre dónde descargar el modelo Dolly 2.0 y cómo usarlo en su anuncio.

Free Dolly: Presentamos el primer LLM del mundo verdaderamente abierto y sintonizado con instrucciones Free Dolly: Introducing the World’s First Truly Open Instruction-Tuned LLM

Imagen destacada de Shutterstock/Kamil Macniak

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales