Algunos se sienten incómodos con la forma en que ChatGPT usa su contenido web para capacitarse y aprender de
Los modelos de lenguaje grande (LLM) como ChatGPT entrenan usando múltiples fuentes de información, incluido el contenido web Estos datos forman la base de los resúmenes de ese contenido en forma de artículos que se producen sin atribuir ni beneficiar a quienes publicaron el contenido original utilizado para capacitar a ChatGPT.
Los motores de búsqueda descargan contenido del sitio web (llamado rastreo e indexación) para proporcionar respuestas en forma de enlaces a los sitios web.
Los editores de sitios web tienen la capacidad de optar por no permitir que los motores de búsqueda rastreen e indexen su contenido a través del Protocolo de exclusión de robots, comúnmente conocido como Robots.txt.
El Protocolo de exclusión de robots no es un estándar oficial de Internet, pero es uno que obedecen los rastreadores web legítimos.
¿Los editores web deberían poder usar el protocolo Robots.txt para evitar que los modelos de lenguaje grandes usen el contenido de su sitio web?
Los modelos de lenguaje grande usan contenido del sitio web sin atribución
Algunos de los que están involucrados con el marketing de búsqueda se sienten incómodos con la forma en que se utilizan los datos del sitio web para entrenar máquinas sin devolver nada, como un reconocimiento o tráfico.
Hans Petter Blindheim (perfil de LinkedIn), experto sénior de Curamando, compartió conmigo sus opiniones. LinkedIn profile
Hans Petter comentó:
“When an author writes something after having learned something from an article on your site, they will more often than not link to your original work because it offers credibility and as a professional courtesy.
It’s called a citation.
But the scale at which ChatGPT assimilates content and does not grant anything back differentiates it from both Google and people.
A website is generally created with a business directive in mind.
Google helps people find the content, providing traffic, which has a mutual benefit to it.
But it’s not like large language models asked your permission to use your content, they just use it in a broader sense than what was expected when your content was published.
And if the AI language models do not offer value in return – why should publishers allow them to crawl and use the content?
Does their use of your content meet the standards of fair use?
When ChatGPT and Google’s own ML/AI models trains on your content without permission, spins what it learns there and uses that while keeping people away from your websites – shouldn’t the industry and also lawmakers try to take back control over the Internet by forcing them to transition to an “opt-in” model?”
“Cuando un autor escribe algo después de haber aprendido algo de un artículo en su sitio, la mayoría de las veces vinculará a su trabajo original porque ofrece credibilidad y como cortesía profesional.
Se llama cita.
Pero la escala en la que ChatGPT asimila el contenido y no otorga nada a cambio lo diferencia tanto de Google como de las personas.
Un sitio web generalmente se crea con una directiva comercial en mente.
Google ayuda a las personas a encontrar el contenido, proporcionando tráfico, lo que tiene un beneficio mutuo.
Pero no es como si los grandes modelos de lenguaje le pidieran permiso para usar su contenido, simplemente lo usan en un sentido más amplio de lo que se esperaba cuando se publicó su contenido.
Y si los modelos de lenguaje de IA no ofrecen valor a cambio, ¿por qué los editores deberían permitirles rastrear y usar el contenido?
¿El uso que hacen de su contenido cumple con los estándares de uso legítimo?
Cuando ChatGPT y los propios modelos ML/AI de Google se entrenan en su contenido sin permiso, hacen girar lo que aprenden allí y lo usan mientras mantienen a las personas alejadas de sus sitios web, ¿no deberían la industria y también los legisladores intentar recuperar el control de Internet forzando
Las preocupaciones que expresa Hans Petter son razonables.
A la luz de la rapidez con la que evoluciona la tecnología, ¿deberían reconsiderarse y actualizarse las leyes relativas al uso legítimo?
Le pregunté a John Rizvi, un abogado de patentes registrado (perfil de LinkedIn) que está certificado por la junta en la Ley de Propiedad Intelectual, si las leyes de derechos de autor de Internet están desactualizadas. LinkedIn profile
Juan respondió:
“Yes, without a doubt.
One major bone of contention in cases like this is the fact that the law inevitably evolves far more slowly than technology does.
In the 1800s, this maybe didn’t matter so much because advances were relatively slow and so legal machinery was more or less tooled to match.
Today, however, runaway technological advances have far outstripped the ability of the law to keep up.
There are simply too many advances and too many moving parts for the law to keep up.
As it is currently constituted and administered, largely by people who are hardly experts in the areas of technology we’re discussing here, the law is poorly equipped or structured to keep pace with technology…and we must consider that this isn’t an entirely bad thing.
So, in one regard, yes, Intellectual Property law does need to evolve if it even purports, let alone hopes, to keep pace with technological advances.
The primary problem is striking a balance between keeping up with the ways various forms of tech can be used while holding back from blatant overreach or outright censorship for political gain cloaked in benevolent intentions.
The law also has to take care not to legislate against possible uses of tech so broadly as to strangle any potential benefit that may derive from them.
You could easily run afoul of the First Amendment and any number of settled cases that circumscribe how, why, and to what degree intellectual property can be used and by whom.
And attempting to envision every conceivable usage of technology years or decades before the framework exists to make it viable or even possible would be an exceedingly dangerous fool’s errand.
In situations like this, the law really cannot help but be reactive to how technology is used…not necessarily how it was intended.
That’s not likely to change anytime soon, unless we hit a massive and unanticipated tech plateau that allows the law time to catch up to current events.”
“Sí, sin duda.
Una de las principales manzanas de la discordia en casos como este es el hecho de que la ley inevitablemente evoluciona mucho más lentamente que la tecnología.
En la década de 1800, esto quizás no importaba tanto porque los avances eran relativamente lentos y, por lo tanto, la maquinaria legal estaba más o menos equipada para igualar.
Hoy, sin embargo, los avances tecnológicos desbocados han superado con creces la capacidad de la ley para mantenerse al día.
Simplemente hay demasiados avances y demasiadas partes móviles para que la ley se mantenga al día.
Como actualmente está constituida y administrada, en gran parte por personas poco expertas en las áreas de tecnología que estamos discutiendo aquí, la ley está mal equipada o estructurada para seguir el ritmo de la tecnología… y debemos considerar que esto no es un
Entonces, en cierto sentido, sí, la ley de propiedad intelectual necesita evolucionar si pretende, y mucho menos espera, seguir el ritmo de los avances tecnológicos.
El problema principal es lograr un equilibrio entre mantenerse al día con las formas en que se pueden usar varias formas de tecnología y evitar la extralimitación flagrante o la censura absoluta para obtener ganancias políticas encubiertas con intenciones benévolas.
La ley también debe tener cuidado de no legislar contra los posibles usos de la tecnología de manera tan amplia como para estrangular cualquier beneficio potencial que pueda derivarse de ellos.
Fácilmente podría entrar en conflicto con la Primera Enmienda y cualquier número de casos resueltos que circunscriban cómo, por qué y en qué medida se puede usar la propiedad intelectual y por quién.
E intentar imaginar cada uso concebible de la tecnología años o décadas antes de que exista el marco para hacerlo viable o incluso posible sería una tontería extremadamente peligrosa.
En situaciones como esta, la ley realmente no puede evitar ser reactiva a cómo se usa la tecnología… no necesariamente a cómo se pretendía.
No es probable que eso cambie pronto, a menos que lleguemos a un estancamiento tecnológico masivo e inesperado que permita que la ley tenga tiempo de ponerse al día con los eventos actuales”.
Entonces, parece que el tema de las leyes de derechos de autor tiene muchas consideraciones que equilibrar cuando se trata de cómo se entrena la IA, no hay una respuesta simple.
OpenAI y Microsoft demandados
Un caso interesante que se presentó recientemente es uno en el que OpenAI y Microsoft usaron código fuente abierto para crear su producto CoPilot.
El problema con el uso de código fuente abierto es que la licencia Creative Commons requiere atribución.
Según un artículo publicado en una revista académica: article published
“Plaintiffs allege that OpenAI and GitHub assembled and distributed a commercial product called Copilot to create generative code using publicly accessible code originally made available under various “open source”-style licenses, many of which include an attribution requirement.
As GitHub states, ‘…[t]rained on billions of lines of code, GitHub Copilot turns natural language prompts into coding suggestions across dozens of languages.’
The resulting product allegedly omitted any credit to the original creators.”
“Los demandantes alegan que OpenAI y GitHub ensamblaron y distribuyeron un producto comercial llamado Copilot para crear código generativo usando código de acceso público originalmente disponible bajo varias licencias de estilo de “código abierto”, muchas de las cuales incluyen un requisito de atribución.
Como afirma GitHub, «… [t] raudado en miles de millones de líneas de código, GitHub Copilot convierte las indicaciones de lenguaje natural en sugerencias de codificación en docenas de idiomas».
El producto resultante supuestamente omitió cualquier crédito a los creadores originales”.
El autor de ese artículo, que es un experto legal en el tema de los derechos de autor, escribió que muchos ven las licencias Creative Commons de código abierto como «gratis para todos».
Algunos también pueden considerar que la frase todos contra todos es una descripción justa de los conjuntos de datos compuestos por contenido de Internet que se extraen y utilizan para generar productos de IA como ChatGPT.
Antecedentes sobre LLM y conjuntos de datos
Los modelos de lenguaje grande se entrenan en múltiples conjuntos de datos de contenido Los conjuntos de datos pueden consistir en correos electrónicos, libros, datos gubernamentales, artículos de Wikipedia e incluso conjuntos de datos creados de sitios web vinculados desde publicaciones en Reddit que tienen al menos tres votos a favor.
Muchos de los conjuntos de datos relacionados con el contenido de Internet tienen su origen en el rastreo creado por una organización sin fines de lucro llamada Common Crawl. Common Crawl
Su conjunto de datos, el conjunto de datos Common Crawl, está disponible de forma gratuita para su descarga y uso.
El conjunto de datos de Common Crawl es el punto de partida para muchos otros conjuntos de datos que se crearon a partir de él.
Por ejemplo, GPT-3 usó una versión filtrada de Common Crawl (Language Models are Few-Shot Learners PDF). Language Models are Few-Shot Learners
Así es como los investigadores de GPT-3 usaron los datos del sitio web contenidos en el conjunto de datos de Common Crawl:
“Datasets for language models have rapidly expanded, culminating in the Common Crawl dataset… constituting nearly a trillion words.
This size of dataset is sufficient to train our largest models without ever updating on the same sequence twice.
However, we have found that unfiltered or lightly filtered versions of Common Crawl tend to have lower quality than more curated datasets.
Therefore, we took 3 steps to improve the average quality of our datasets:
(1) we downloaded and filtered a version of CommonCrawl based on similarity to a range of high-quality reference corpora,
(2) we performed fuzzy deduplication at the document level, within and across datasets, to prevent redundancy and preserve the integrity of our held-out validation set as an accurate measure of overfitting, and
(3) we also added known high-quality reference corpora to the training mix to augment CommonCrawl and increase its diversity.”
“Los conjuntos de datos para los modelos de lenguaje se han expandido rápidamente, culminando en el conjunto de datos Common Crawl… que constituye casi un billón de palabras.
Este tamaño de conjunto de datos es suficiente para entrenar nuestros modelos más grandes sin tener que actualizar la misma secuencia dos veces.
Sin embargo, hemos descubierto que las versiones sin filtrar o ligeramente filtradas de Common Crawl tienden a tener una calidad más baja que los conjuntos de datos más seleccionados.
Por lo tanto, tomamos 3 pasos para mejorar la calidad promedio de nuestros conjuntos de datos:
(1) descargamos y filtramos una versión de CommonCrawl en función de la similitud con una variedad de corpus de referencia de alta calidad,
(2) realizamos una deduplicación aproximada a nivel de documento, dentro y entre conjuntos de datos, para evitar la redundancia y preservar la integridad de nuestro conjunto de validación retenido como una medida precisa de sobreajuste, y
(3) también agregamos corpus de referencia conocidos de alta calidad a la combinación de capacitación para aumentar CommonCrawl y aumentar su diversidad”.
El conjunto de datos de Google C4 (Colossal, Clean Crawled Corpus), que se usó para crear el Transformador de transferencia de texto a texto (T5), también tiene sus raíces en el conjunto de datos de Common Crawl.
Su trabajo de investigación (Exploring the Limits of Transfer Learning with a Unified Text-to-Tex Transformer PDF) explica: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
“Before presenting the results from our large-scale empirical study, we review the necessary background topics required to understand our results, including the Transformer model architecture and the downstream tasks we evaluate on.
We also introduce our approach for treating every problem as a text-to-text task and describe our “Colossal Clean Crawled Corpus” (C4), the Common Crawl-based data set we created as a source of unlabeled text data.
We refer to our model and framework as the ‘Text-to-Text Transfer Transformer’ (T5).”
“Antes de presentar los resultados de nuestro estudio empírico a gran escala, revisamos los temas básicos necesarios para comprender nuestros resultados, incluida la arquitectura del modelo Transformer y las tareas posteriores que evaluamos.
También presentamos nuestro enfoque para tratar cada problema como una tarea de texto a texto y describimos nuestro «Colossal Clean Crawled Corpus» (C4), el conjunto de datos basado en Common Crawl que creamos como fuente de datos de texto sin etiquetar.
Nos referimos a nuestro modelo y marco como el ‘Transformador de transferencia de texto a texto’ (T5)».
Google publicó un artículo en su blog de IA que explica con más detalle cómo se utilizaron los datos de Common Crawl (que contienen contenido extraído de Internet) para crear C4. published an article on their AI blog
Ellos escribieron:
“An important ingredient for transfer learning is the unlabeled dataset used for pre-training.
To accurately measure the effect of scaling up the amount of pre-training, one needs a dataset that is not only high quality and diverse, but also massive.
Existing pre-training datasets don’t meet all three of these criteria — for example, text from Wikipedia is high quality, but uniform in style and relatively small for our purposes, while the Common Crawl web scrapes are enormous and highly diverse, but fairly low quality.
To satisfy these requirements, we developed the Colossal Clean Crawled Corpus (C4), a cleaned version of Common Crawl that is two orders of magnitude larger than Wikipedia.
Our cleaning process involved deduplication, discarding incomplete sentences, and removing offensive or noisy content.
This filtering led to better results on downstream tasks, while the additional size allowed the model size to increase without overfitting during pre-training.”
“Un ingrediente importante para el aprendizaje por transferencia es el conjunto de datos sin etiquetar que se usa para el entrenamiento previo.
Para medir con precisión el efecto de aumentar la cantidad de capacitación previa, se necesita un conjunto de datos que no solo sea de alta calidad y diverso, sino también masivo.
Los conjuntos de datos previos al entrenamiento existentes no cumplen con estos tres criterios; por ejemplo, el texto de Wikipedia es de alta calidad, pero de estilo uniforme y relativamente pequeño para nuestros propósitos, mientras que los web scrapes de Common Crawl son enormes y muy diversos, pero bastante
Para satisfacer estos requisitos, desarrollamos Colossal Clean Crawled Corpus (C4), una versión limpia de Common Crawl que es dos órdenes de magnitud más grande que Wikipedia.
Nuestro proceso de limpieza involucró la deduplicación, el descarte de oraciones incompletas y la eliminación de contenido ofensivo o ruidoso.
Este filtrado condujo a mejores resultados en las tareas posteriores, mientras que el tamaño adicional permitió que el tamaño del modelo aumentara sin sobreajustarse durante el entrenamiento previo”.
Google, OpenAI, incluso Open Data de Oracle están utilizando contenido de Internet, su contenido, para crear conjuntos de datos que luego se utilizan para crear aplicaciones de IA como ChatGPT. Oracle’s Open Data
El rastreo común se puede bloquear
Es posible bloquear Common Crawl y, posteriormente, optar por no participar en todos los conjuntos de datos que se basan en Common Crawl.
Pero si el sitio ya se ha rastreado, los datos del sitio web ya están en conjuntos de datos. No hay forma de eliminar su contenido del conjunto de datos Common Crawl y cualquiera de los otros conjuntos de datos derivados como C4 y Open Data.
El uso del protocolo Robots.txt solo bloqueará futuros rastreos de Common Crawl, no impedirá que los investigadores usen el contenido que ya está en el conjunto de datos.
Cómo bloquear el rastreo común de sus datos
El bloqueo de Common Crawl es posible mediante el uso del protocolo Robots.txt, dentro de las limitaciones mencionadas anteriormente.
El bot Common Crawl se llama CCBot.
Se identifica utilizando la cadena de agente de usuario de CCBot más actualizada: CCBot/2.0
El bloqueo de CCBot con Robots.txt se logra igual que con cualquier otro bot.
Aquí está el código para bloquear CCBot con Robots.txt.
User-agent: CCBot Disallow: /
CCBot rastrea desde las direcciones IP de Amazon AWS.
CCBot también sigue la metaetiqueta Robots nofollow:
<meta name="robots" content="nofollow">
¿Qué sucede si no está bloqueando el rastreo común?
El contenido web se puede descargar sin permiso, que es como funcionan los navegadores, descargan contenido.
Ni Google ni nadie más necesita permiso para descargar y usar contenido que se publica públicamente.
Los editores de sitios web tienen opciones limitadas
La consideración de si es ético entrenar a la IA en contenido web no parece ser parte de ninguna conversación sobre la ética de cómo se desarrolla la tecnología de IA.
Parece que se da por hecho que el contenido de Internet se puede descargar, resumir y transformar en un producto llamado ChatGPT.
¿Parece justo?
Imagen destacada de Shutterstock/Krakenimages.com
Leer el articulo original en Search Engine Journal.