Contenidos
Una marca de agua facilitará la detección del contenido generado por ChatGPT Esto es lo que es y por qué podría ser fácil de derrotar.
ChatGPT de OpenAI introdujo una forma de crear contenido automáticamente, pero los planes para introducir una función de marca de agua para que sea más fácil de detectar están poniendo nerviosas a algunas personas. Así es como funciona la marca de agua de ChatGPT y por qué puede haber una manera de vencerla.
ChatGPT es una herramienta increíble que los editores en línea, los afiliados y los SEO adoran y temen al mismo tiempo.
A algunos especialistas en marketing les encanta porque están descubriendo nuevas formas de usarlo para generar resúmenes de contenido, esquemas y artículos complejos.
Los editores en línea temen la posibilidad de que el contenido de IA inunde los resultados de búsqueda, reemplazando los artículos de expertos escritos por humanos.
En consecuencia, la noticia de una función de marca de agua que desbloquea la detección de contenido creado por ChatGPT también se anticipa con ansiedad y esperanza.
Marca de agua criptográfica
Una marca de agua es una marca semitransparente (un logotipo o texto) que se incrusta en una imagen La marca de agua señala quién es el autor original de la obra.
Se ve en gran parte en fotografías y cada vez más en videos.
El texto de marca de agua en ChatGPT implica criptografía en forma de incrustación de un patrón de palabras, letras y puntuación en forma de código secreto.
Marca de agua de Scott Aaronson y ChatGPT
OpenAI contrató a un científico informático influyente llamado Scott Aaronson en junio de 2022 para trabajar en AI Safety and Alignment.
AI Safety es un campo de investigación que se ocupa de estudiar las formas en que la IA podría representar un daño para los humanos y crear formas de prevenir ese tipo de interrupción negativa.
La revista científica Distill, con autores afiliados a OpenAI, define la seguridad de la IA de la siguiente manera: defines AI Safety
“The goal of long-term artificial intelligence (AI) safety is to ensure that advanced AI systems are reliably aligned with human values — that they reliably do things that people want them to do.”
“El objetivo de la seguridad de la inteligencia artificial (IA) a largo plazo es garantizar que los sistemas avanzados de IA estén alineados de manera confiable con los valores humanos, que hagan de manera confiable las cosas que la gente quiere que hagan”.
AI Alignment es el campo de la inteligencia artificial que se ocupa de asegurarse de que la IA esté alineada con los objetivos previstos.
Un modelo de lenguaje grande (LLM) como ChatGPT se puede usar de una manera que puede ir en contra de los objetivos de Alineación de IA definidos por OpenAI, que es crear IA que beneficie a la humanidad. AI Alignment as defined by OpenAI
En consecuencia, el motivo de la marca de agua es evitar el mal uso de la IA de una manera que perjudique a la humanidad.
Aaronson explicó el motivo de la marca de agua de la salida de ChatGPT:
“This could be helpful for preventing academic plagiarism, obviously, but also, for example, mass generation of propaganda…”
“Esto podría ser útil para prevenir el plagio académico, obviamente, pero también, por ejemplo, la generación masiva de propaganda…”
¿Cómo funciona la marca de agua de ChatGPT?
La marca de agua de ChatGPT es un sistema que incorpora un patrón estadístico, un código, en las opciones de palabras e incluso en los signos de puntuación.
El contenido creado por inteligencia artificial se genera con un patrón bastante predecible de elección de palabras.
Las palabras escritas por humanos e IA siguen un patrón estadístico.
Cambiar el patrón de las palabras utilizadas en el contenido generado es una forma de «marcar con agua» el texto para facilitar que un sistema detecte si fue producto de un generador de texto de IA.
El truco que hace que la marca de agua del contenido de la IA sea indetectable es que la distribución de las palabras sigue teniendo una apariencia aleatoria similar al texto normal generado por la IA.
Esto se conoce como una distribución pseudoaleatoria de palabras.
La pseudoaleatoriedad es una serie estadísticamente aleatoria de palabras o números que en realidad no son aleatorios.
La marca de agua ChatGPT no está actualmente en uso Sin embargo, Scott Aaronson en OpenAI está registrado afirmando que está planeado.
En este momento, ChatGPT se encuentra en vista previa, lo que permite que OpenAI descubra la «desalineación» a través del uso en el mundo real.
Presumiblemente, la marca de agua se puede introducir en una versión final de ChatGPT o antes.
Scott Aaronson escribió sobre cómo funciona la marca de agua: wrote
“My main project so far has been a tool for statistically watermarking the outputs of a text model like GPT.
Basically, whenever GPT generates some long text, we want there to be an otherwise unnoticeable secret signal in its choices of words, which you can use to prove later that, yes, this came from GPT.”
“Hasta ahora, mi proyecto principal ha sido una herramienta para marcar con agua estadísticamente los resultados de un modelo de texto como GPT.
Básicamente, cada vez que GPT genera un texto largo, queremos que haya una señal secreta imperceptible en sus elecciones de palabras, que puede usar para demostrar más tarde que sí, esto vino de GPT».
Aaronson explicó con más detalle cómo funciona la marca de agua de ChatGPT Pero primero, es importante entender el concepto de tokenización.
La tokenización es un paso que ocurre en el procesamiento del lenguaje natural donde la máquina toma las palabras de un documento y las descompone en unidades semánticas como palabras y oraciones.
La tokenización cambia el texto a una forma estructurada que se puede usar en el aprendizaje automático.
El proceso de generación de texto es la máquina que adivina qué token viene a continuación en función del token anterior.
Esto se hace con una función matemática que determina la probabilidad de cuál será el próximo token, lo que se llama distribución de probabilidad.
Se predice qué palabra sigue, pero es aleatoria.
La marca de agua en sí misma es lo que Aaron describe como pseudoaleatorio, en el sentido de que existe una razón matemática para que una palabra en particular o un signo de puntuación estén allí, pero sigue siendo estadísticamente aleatorio.
Aquí está la explicación técnica de la marca de agua GPT:
“For GPT, every input and output is a string of tokens, which could be words but also punctuation marks, parts of words, or more—there are about 100,000 tokens in total.
At its core, GPT is constantly generating a probability distribution over the next token to generate, conditional on the string of previous tokens.
After the neural net generates the distribution, the OpenAI server then actually samples a token according to that distribution—or some modified version of the distribution, depending on a parameter called ‘temperature.’
As long as the temperature is nonzero, though, there will usually be some randomness in the choice of the next token: you could run over and over with the same prompt, and get a different completion (i.e., string of output tokens) each time.
So then to watermark, instead of selecting the next token randomly, the idea will be to select it pseudorandomly, using a cryptographic pseudorandom function, whose key is known only to OpenAI.”
“Para GPT, cada entrada y salida es una cadena de tokens, que pueden ser palabras pero también signos de puntuación, partes de palabras o más; hay alrededor de 100 000 tokens en total.
En esencia, GPT genera constantemente una distribución de probabilidad sobre el próximo token a generar, condicional a la cadena de tokens anteriores.
Después de que la red neuronal genera la distribución, el servidor OpenAI luego muestra un token de acuerdo con esa distribución, o alguna versión modificada de la distribución, según un parámetro llamado «temperatura».
Sin embargo, siempre que la temperatura sea distinta de cero, generalmente habrá cierta aleatoriedad en la elección del siguiente token: puede ejecutar una y otra vez con el mismo mensaje y obtener una finalización diferente (es decir, una cadena de tokens de salida) cada vez
Entonces, para hacer una marca de agua, en lugar de seleccionar el siguiente token al azar, la idea será seleccionarlo pseudoaleatoriamente, utilizando una función pseudoaleatoria criptográfica, cuya clave solo conoce OpenAI”.
La marca de agua parece completamente natural para quienes leen el texto porque la elección de las palabras imita la aleatoriedad de todas las demás palabras.
Pero esa aleatoriedad contiene un sesgo que solo puede ser detectado por alguien con la clave para decodificarlo.
Esta es la explicación técnica:
“To illustrate, in the special case that GPT had a bunch of possible tokens that it judged equally probable, you could simply choose whichever token maximized g. The choice would look uniformly random to someone who didn’t know the key, but someone who did know the key could later sum g over all n-grams and see that it was anomalously large.”
“Para ilustrar, en el caso especial de que GPT tuviera un montón de tokens posibles que consideró igualmente probables, simplemente podría elegir el token que maximizara g La elección parecería uniformemente aleatoria para alguien que no conociera la clave, pero alguien que sí la conociera podría luego sumar todos los n-gramas y ver que era anómalamente grande”.
La marca de agua es una solución que prioriza la privacidad
He visto discusiones en las redes sociales donde algunas personas sugirieron que OpenAI podría mantener un registro de cada resultado que genera y usarlo para la detección.
Scott Aaronson confirma que OpenAI podría hacer eso, pero que hacerlo plantea un problema de privacidad La posible excepción es para la situación de aplicación de la ley, sobre la cual no dio más detalles.
Cómo detectar marcas de agua de ChatGPT o GPT
Algo interesante que parece no ser muy conocido todavía es que Scott Aaronson señaló que hay una manera de vencer la marca de agua.
No dijo que es posible vencer la marca de agua, dijo que se puede vencer.
“Now, this can all be defeated with enough effort.
For example, if you used another AI to paraphrase GPT’s output—well okay, we’re not going to be able to detect that.”
“Ahora, todo esto puede ser derrotado con suficiente esfuerzo.
Por ejemplo, si usó otra IA para parafrasear la salida de GPT, está bien, no podremos detectar eso”.
Parece que la marca de agua se puede derrotar, al menos a partir de noviembre, cuando se hicieron las declaraciones anteriores.
No hay indicios de que la marca de agua esté actualmente en uso Pero cuando entre en uso, es posible que se desconozca si se cerró esta laguna.
Citación
Lea la publicación de blog de Scott Aaronson aquí. blog post here
Imagen destacada de Shutterstock/RealPeopleStudio
Leer el articulo original en Search Engine Journal.