Contenidos
¿Es cierto que ChatGPT, Bard y Dolly 2.0 están entrenados con texto de libros pirateados?
Los modelos de lenguaje grande (LLM) como ChatGPT, Bard e incluso las versiones de código abierto están entrenados en contenido público de Internet. Pero también hay indicios de que las IA populares también podrían entrenarse en conjuntos de datos creados a partir de libros pirateados.
¿Dolly 2.0 está entrenada en contenido pirateado?
Dolly 2.0 es una IA de código abierto que se lanzó recientemente La intención detrás de Dolly es democratizar la IA al ponerla a disposición de todos los que quieran crear algo con ella, incluso productos comerciales.
Pero también hay un problema de privacidad al concentrar la tecnología de inteligencia artificial en manos de tres grandes corporaciones y confiarles datos privados.
Dadas las opciones, muchas empresas preferirían no entregar datos privados a terceros como Google, OpenAI y Meta.
Incluso Mozilla, la empresa de aplicaciones y navegadores de código abierto, está invirtiendo en hacer crecer el ecosistema de IA de código abierto.
La intención detrás de la IA de código abierto es, sin duda, buena.
Pero hay un problema con los datos que se usan para entrenar estos grandes modelos de lenguaje porque algunos de ellos consisten en contenido pirateado.
El clon de ChatGPT de código abierto, Dolly 2.0, fue creado por una empresa llamada DataBricks (obtenga más información sobre Dolly 2.0)
Dolly 2.0 se basa en un modelo de lenguaje grande de código abierto (LLM) llamado Pythia (que fue creado por un grupo de código abierto llamado EleutherAI).
EleutherAI creó ocho versiones de LLM de diferentes tamaños dentro de la familia Pythia de LLM.
Una versión de Pythia, una versión de 12 mil millones de parámetros, es la que usa DataBricks para crear Dolly 2.0, así como con un conjunto de datos que DataBricks creó ellos mismos (un conjunto de datos de preguntas y respuestas que se usó para entrenar a Dolly 2.0 AI para tomar
Lo que pasa con EleutherAI Pythia LLM es que fue entrenado usando un conjunto de datos llamado Pile.
El conjunto de datos de Pile se compone de múltiples conjuntos de textos en inglés, uno de los cuales es un conjunto de datos llamado Books3 El conjunto de datos Books3 contiene el texto de los libros que fueron pirateados y alojados en un sitio pirata llamado bibliotik.
Esto es lo que dice el anuncio de DataBricks: announcement
«Dolly 2.0 es un modelo de lenguaje de parámetros 12B basado en la familia de modelos EleutherAI pythia y ajustado exclusivamente en un nuevo conjunto de datos de seguimiento de instrucciones generado por humanos de alta calidad, obtenido entre los empleados de Databricks».
Pythia LLM se creó con el conjunto de datos de pilotes
El artículo de investigación de Pythia de EleutherAI que menciona que Pythia fue entrenada usando el conjunto de datos de Pile. Pythia research paper
Esta es una cita del trabajo de investigación Pythia:
“We train 8 model sizes each on both the Pile …and the Pile after deduplication, providing 2 copies of the suite which can be compared.”
“Entrenamos 8 tamaños de modelo cada uno en Pile… y en Pile después de la deduplicación, proporcionando 2 copias de la suite que se pueden comparar”.
La deduplicación significa que eliminaron datos redundantes, es un proceso para crear un conjunto de datos más limpio.
Entonces, ¿qué hay en Pile?
Aquí hay una cita del trabajo de investigación de Pile donde dice que usan el conjunto de datos Books3: research paper for Pile
“In addition we incorporate several existing highquality datasets: Books3 (Presser, 2020)…”
“Además, incorporamos varios conjuntos de datos existentes de alta calidad: Books3 (Presser, 2020)…”
El documento de investigación del conjunto de datos de Pile se vincula a un tweet de Shawn Presser, que dice qué hay en el conjunto de datos de Books3: a tweet
“Suppose you wanted to train a world-class GPT model, just like OpenAI. How? You have no data.
Now you do. Now everyone does.
Presenting “books3”, aka “all of bibliotik”
– 196,640 books
– in plain .txt
– reliable, direct download, for years: https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz”
“Supongamos que desea entrenar un modelo GPT de clase mundial, al igual que OpenAI ¿Cómo?
Ahora hazlo tú Ahora todo el mundo lo hace.
Presentando “books3”, también conocido como “all of bibliotik”
– 196.640 libros
Entonces… la cita anterior establece claramente que el conjunto de datos de Pile se usó para entrenar Pythia LLM, que a su vez sirvió como base para la IA de código abierto Dolly 2.0.
¿Google Bard está capacitado en contenido pirateado?
The Washington Post publicó recientemente una revisión del conjunto de datos Colossal Clean Crawled Corpus de Google (también conocido como C4 – Documento de investigación en PDF aquí) en el que descubrieron que el conjunto de datos de Google también contiene contenido pirateado. PDF research paper here
El conjunto de datos C4 es importante porque es uno de los conjuntos de datos utilizados para entrenar LaMDA LLM de Google, una versión en la que se basa Bard.
El conjunto de datos real se llama Infiniset y el conjunto de datos C4 constituye aproximadamente el 12,5 % del texto total utilizado para entrenar LaMDA Las citas de esos hechos sobre Bard se pueden encontrar aquí.
El artículo de noticias del Washington Post publicó:
“The three biggest sites were patents.google.com No. 1, which contains text from patents issued around the world; wikipedia.org No. 2, the free online encyclopedia; and scribd.com No. 3, a subscription-only digital library.
Also high on the list: b-ok.org No. 190, a notorious market for pirated e-books that has since been seized by the U.S. Justice Department.
At least 27 other sites identified by the U.S. government as markets for piracy and counterfeits were present in the data set.”
“Los tres sitios más grandes eran patents.google.com No 1, que contiene texto de patentes emitidas en todo el mundo; 2, la enciclopedia gratuita en línea; 3, una biblioteca digital solo por suscripción.
También alto en la lista: b-ok.org No 190, un notorio mercado de libros electrónicos pirateados que desde entonces ha sido incautado por EE. UU. Departamento de Justicia.
Al menos otros 27 sitios identificados por EE. UU. el gobierno como mercados para la piratería y las falsificaciones estaban presentes en el conjunto de datos”.
La falla en el análisis del Washington Post es que están buscando una versión del C4, pero no necesariamente en la que se entrenó a LaMDA.
El trabajo de investigación para el conjunto de datos C4 se publicó en julio de 2020 Un año después de la publicación, se publicó otro trabajo de investigación que descubrió que el conjunto de datos C4 estaba sesgado contra las personas de color y la comunidad LGBT.
El trabajo de investigación se titula Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus (documento de investigación en PDF aquí). PDF research paper here
Los investigadores descubrieron que el conjunto de datos contenía sentimientos negativos contra las personas de identidad árabe y excluía documentos asociados con negros, hispanos y documentos que mencionan la orientación sexual.
Los investigadores escribieron:
“Our examination of the excluded data suggests that documents associated with Black and Hispanic authors and documents mentioning sexual orientations are significantly more likely to be excluded by C4.EN’s blocklist filtering, and that many excluded documents contained non-offensive or non-sexual content (e.g., legislative discussions of same-sex marriage, scientific and medical content).
This exclusion is a form of allocational harms …and exacerbates existing (language-based) racial inequality as well as stigmatization of LGBTQ+ identities…
In addition, a direct consequence of removing such text from datasets used to train language models is that the models will perform poorly when applied to text from and about people with minority identities, effectively excluding them from the benefits of technology like machine translation or search.”
“Nuestro examen de los datos excluidos sugiere que los documentos asociados con autores negros e hispanos y los documentos que mencionan orientaciones sexuales tienen muchas más probabilidades de ser excluidos por el filtrado de la lista de bloqueo de C4.EN, y que muchos documentos excluidos contenían contenido no ofensivo o no sexual (
Esta exclusión es una forma de daños por asignación… y exacerba la desigualdad racial existente (basada en el idioma), así como la estigmatización de las identidades LGBTQ+…
Además, una consecuencia directa de eliminar dicho texto de los conjuntos de datos utilizados para entrenar modelos de lenguaje es que los modelos tendrán un rendimiento deficiente cuando se apliquen a texto de y sobre personas con identidades minoritarias, excluyéndolos efectivamente de los beneficios de la tecnología como la traducción automática o la búsqueda.
Se concluyó que el filtrado de «malas palabras» y otros intentos de «limpiar» el conjunto de datos era demasiado simplista y justificaba un enfoque más matizado.
Esas conclusiones son importantes porque muestran que era bien sabido que el conjunto de datos C4 tenía fallas.
LaMDA se desarrolló en 2022 (dos años después del conjunto de datos C4) y el artículo de investigación asociado de LaMDA dice que se entrenó con C4. LaMDA research paper
Pero eso es solo un trabajo de investigación. Lo que sucede en la vida real en un modelo de producción puede ser muy diferente de lo que se encuentra en el trabajo de investigación.
Cuando se habla de un trabajo de investigación, es importante recordar que Google dice constantemente que lo que está en una patente o trabajo de investigación no es necesariamente lo que está en uso en el algoritmo de Google.
Es muy probable que Google esté al tanto de esas conclusiones y no es descabellado suponer que Google desarrolló una nueva versión de C4 para el modelo de producción, no solo para abordar las desigualdades en el conjunto de datos, sino también para actualizarlo.
Google no dice qué hay en su algoritmo, es una caja negra Por lo tanto, no podemos decir con certeza que la tecnología subyacente de Google Bard haya sido entrenada en contenido pirateado.
Para que quede aún más claro, Bard se lanzó en 2023, utilizando una versión ligera de LaMDA Google no ha definido qué es una versión ligera de LaMDA.
Por lo tanto, no hay forma de saber qué contenido contenían los conjuntos de datos utilizados para entrenar la versión ligera de LaMDA que impulsa a Bard.
Uno solo puede especular sobre qué contenido se usó para entrenar a Bard.
¿GPT-4 usa contenido pirateado?
OpenAI es extremadamente privado sobre los conjuntos de datos utilizados para entrenar GPT-4 La última vez que OpenAI mencionó conjuntos de datos fue en el documento de investigación en PDF para GPT-3 publicado en 2020 e incluso allí es algo vago e impreciso sobre lo que hay en los conjuntos de datos. PDF research paper for GPT-3
El sitio web TowardsDataScience en 2021 publicó una interesante revisión de la información disponible en la que concluyen que, efectivamente, se utilizó contenido pirateado para entrenar las primeras versiones de GPT.
Escriben: write
“…we find evidence that BookCorpus directly violated copyright restrictions for hundreds of books that should not have been redistributed through a free dataset.
For example, over 200 books in BookCorpus explicitly state that they “may not be reproduced, copied and distributed for commercial or non-commercial purposes.””
“… encontramos evidencia de que BookCorpus violó directamente las restricciones de derechos de autor de cientos de libros que no deberían haber sido redistribuidos a través de un conjunto de datos gratuito.
Por ejemplo, más de 200 libros en BookCorpus declaran explícitamente que «no se pueden reproducir, copiar ni distribuir con fines comerciales o no comerciales».
Es difícil concluir si GPT-4 usó algún contenido pirateado.
¿Hay algún problema con el uso de contenido pirateado?
Uno pensaría que puede ser poco ético usar contenido pirateado para entrenar un modelo de lenguaje grande y beneficiarse del uso de ese contenido.
Pero las leyes pueden permitir este tipo de uso.
Le pregunté a Kenton J. Hutcherson, abogado de Internet de Hutcherson Law, lo que pensaba sobre el uso de contenido pirateado en el contexto de la formación de grandes modelos de lenguaje. Hutcherson Law
Específicamente, pregunté si alguien usa Dolly 2.0, que puede haber sido creado parcialmente con libros pirateados, ¿las entidades comerciales que crean aplicaciones con Dolly 2.0 estarían expuestas a reclamos por infracción de derechos de autor?
Kenton respondió:
“A claim for copyright infringement from the copyright holders of the pirated books would likely fail because of fair use.
Fair use protects transformative uses of copyrighted works.
Here, the pirated books are not being used as books for people to read, but as inputs to an artificial intelligence training dataset.
A similar example came into play with the use of thumbnails on search results pages. The thumbnails are not there to replace the webpages they preview. They serve a completely different function—they preview the page.
That is transformative use.”
“Un reclamo por infracción de derechos de autor de los titulares de derechos de autor de los libros pirateados probablemente fracasaría debido al uso justo.
El uso justo protege los usos transformadores de las obras protegidas por derechos de autor.
Aquí, los libros pirateados no se utilizan como libros para que la gente los lea, sino como entradas para un conjunto de datos de entrenamiento de inteligencia artificial.
Un ejemplo similar entró en juego con el uso de miniaturas en las páginas de resultados de búsqueda. Las miniaturas no están allí para reemplazar las páginas web de las que muestran una vista previa. Cumplen una función completamente diferente: ofrecen una vista previa de la página.
Ese es un uso transformador”.
karen j. Bernstein de Bernstein IP ofreció una opinión similar. Bernstein IP
“Is the use of the pirated content a fair use? Fair use is a commonly used defense in these instances.
The concept of the fair use defense only exists under US copyright law.
Fair use is analyzed under a multi-factor analysis that the Supreme Court set forth in a 1994 landmark case.
Under this scenario, there will be questions of how much of the pirated content was taken from the books and what was done to the content (was it “transformative”), and whether such content is taking the market away from the copyright creator.”
“¿Es el uso del contenido pirateado un uso justo?
El concepto de defensa de uso justo solo existe bajo la ley de derechos de autor de EE. UU.
El uso justo se analiza bajo un análisis multifactorial que la Corte Suprema estableció en un caso histórico de 1994.
Bajo este escenario, habrá preguntas sobre cuánto del contenido pirateado se tomó de los libros y qué se hizo con el contenido (si fue «transformador»), y si dicho contenido está quitándole el mercado al creador de los derechos de autor».
La tecnología de IA está avanzando a un ritmo sin precedentes, aparentemente evolucionando semana a semana Tal vez como un reflejo de la competencia y la ganancia financiera inesperada que se obtiene del éxito, Google y OpenAI se están volviendo cada vez más privados sobre cómo se entrenan sus modelos de IA.
¿Deberían ser más abiertos acerca de tal información?
El uso de contenido pirateado para crear estos modelos de IA puede estar legalmente protegido como uso legítimo, pero el hecho de que uno pueda significa que debería hacerlo.
Imagen destacada de Shutterstock/Roman Samborskyi
Leer el articulo original en Search Engine Journal.