Contenidos
Los investigadores descubren fallas sorprendentes en el contenido de ChatGPT Aquí se explica cómo atraparlos.
ChatGPT produce contenido completo y verosímilmente preciso.
Pero investigadores, artistas y profesores advierten de deficiencias a tener en cuenta que degradan la calidad del contenido.
En este artículo, veremos 11 desventajas del contenido de ChatGPT Sumerjámonos.
1 El uso de frases lo hace detectable como no humano
Los investigadores que estudian cómo detectar contenido generado por máquinas han descubierto patrones que hacen que suene poco natural.
Una de estas peculiaridades es cómo la IA lucha con los modismos.
Un modismo es una frase o dicho con un significado figurativo adjunto, por ejemplo, «todas las nubes tienen un revestimiento plateado».
La falta de modismos dentro de un contenido puede ser una señal de que el contenido es generado por una máquina, y esto puede ser parte de un algoritmo de detección.
Esto es lo que dice el artículo de investigación de 2022 Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers sobre esta peculiaridad en el contenido generado por máquinas: Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers
“Complex phrasal features are based on the frequency of specific words and phrases within the analyzed text that occur more frequently in human text.
…Of these complex phrasal features, idiom features retain the most predictive power in detection of current generative models.”
“Las características de frases complejas se basan en la frecuencia de palabras y frases específicas dentro del texto analizado que ocurren con mayor frecuencia en el texto humano.
…De estas características complejas de frases, las características idiomáticas conservan el mayor poder predictivo en la detección de modelos generativos actuales”.
Esta incapacidad para usar modismos contribuye a que la salida de ChatGPT suene y se lea de forma poco natural.
2 ChatGPT carece de capacidad de expresión
Un artista comentó cómo la salida de ChatGPT imita lo que es el arte, pero carece de las cualidades reales de la expresión artística.
La expresión es el acto de comunicar pensamientos o sentimientos.
La salida de ChatGPT no contiene expresiones, solo palabras.
No puede producir contenido que toque emocionalmente a las personas al mismo nivel que un ser humano, porque no tiene pensamientos o sentimientos reales.
El artista musical Nick Cave, en un artículo publicado en su boletín Red Hand Files, comentó sobre una letra de ChatGPT que le enviaron, que fue creada al estilo de Nick Cave. article posted
El escribio:
“What makes a great song great is not its close resemblance to a recognizable work.
…it is the breathless confrontation with one’s vulnerability, one’s perilousness, one’s smallness, pitted against a sense of sudden shocking discovery; it is the redemptive artistic act that stirs the heart of the listener, where the listener recognizes in the inner workings of the song their own blood, their own struggle, their own suffering.”
“Lo que hace grande a una gran canción no es su gran parecido con una obra reconocible.
… es la confrontación sin aliento con la vulnerabilidad de uno, la peligrosidad de uno, la pequeñez de uno, enfrentada a una sensación de descubrimiento repentino e impactante;
Cave llamó a la letra de ChatGPT una burla.
Esta es la letra de ChatGPT que se asemeja a una letra de Nick Cave:
“I’ve got the blood of angels, on my hands
I’ve got the fire of hell, in my eyes
I’m the king of the abyss, I’m the ruler of the dark
I’m the one that they fear, in the shadows they hark”
«Tengo la sangre de los ángeles, en mis manos
Y esta es una letra real de Nick Cave (Brother, My Cup Is Empty): Brother, My Cup Is Empty
“Well I’ve been sliding down on rainbows
I’ve been swinging from the stars
Now this wretch in beggar’s clothing
Bangs his cup across the bars
Look, this cup of mine is empty!
Seems I’ve misplaced my desires
Seems I’m sweeping up the ashes
Of all my former fires”
«Bueno, he estado deslizándome sobre arcoíris
Es fácil ver que la letra generada por la máquina se parece a la letra del artista, pero en realidad no comunica nada.
La letra de Nick Cave cuenta una historia que resuena con el patetismo, el deseo, la vergüenza y el engaño deliberado de la persona que habla en la canción. Expresa pensamientos y sentimientos.
Es fácil ver por qué Nick Cave lo llama una burla.
3 ChatGPT no produce información
Un artículo publicado en The Insider citó a un académico que señaló que los ensayos académicos generados por ChatGPT carecen de información sobre el tema. article published in The Insider
ChatGPT resume el tema pero no ofrece una visión única del tema.
Los humanos crean a través del conocimiento, pero también a través de su experiencia personal y percepciones subjetivas.
The Insider cita al profesor Christopher Bartel de la Universidad Estatal de los Apalaches diciendo que, si bien un ensayo de ChatGPT puede exhibir altas cualidades gramaticales e ideas sofisticadas, todavía carecía de perspicacia.
bartel dijo:
“They are really fluffy. There’s no context, there’s no depth or insight.”
“Son realmente esponjosos No hay contexto, no hay profundidad ni perspicacia”.
Insight es el sello distintivo de un ensayo bien hecho y es algo en lo que ChatGPT no es particularmente bueno.
Esta falta de conocimiento es algo a tener en cuenta al evaluar el contenido generado por máquinas.
4 ChatGPT es demasiado prolijo
Un artículo de investigación publicado en enero de 2023 descubrió patrones en el contenido de ChatGPT que lo hacen menos adecuado para aplicaciones críticas.
El documento se titula, ¿Qué tan cerca está ChatGPT de los expertos humanos? How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
La investigación mostró que los humanos preferían las respuestas de ChatGPT en más del 50 % de las preguntas relacionadas con las finanzas y la psicología.
Pero ChatGPT falló al responder preguntas médicas porque los humanos preferían respuestas directas, algo que la IA no proporcionó.
Los investigadores escribieron:
“…ChatGPT performs poorly in terms of helpfulness for the medical domain in both English and Chinese.
The ChatGPT often gives lengthy answers to medical consulting in our collected dataset, while human experts may directly give straightforward answers or suggestions, which may partly explain why volunteers consider human answers to be more helpful in the medical domain.”
“…ChatGPT funciona mal en términos de utilidad para el dominio médico tanto en inglés como en chino.
El ChatGPT a menudo brinda respuestas extensas a consultas médicas en nuestro conjunto de datos recopilados, mientras que los expertos humanos pueden dar directamente respuestas o sugerencias sencillas, lo que puede explicar en parte por qué los voluntarios consideran que las respuestas humanas son más útiles en el dominio médico”.
ChatGPT tiende a cubrir un tema desde diferentes ángulos, lo que lo hace inapropiado cuando la mejor respuesta es directa.
Los especialistas en marketing que usan ChatGPT deben tomar nota de esto porque los visitantes del sitio que requieren una respuesta directa no estarán satisfechos con una página web detallada.
Y buena suerte clasificando una página demasiado prolija en los fragmentos destacados de Google, donde una respuesta sucinta y claramente expresada que puede funcionar bien en Google Voice puede tener más posibilidades de clasificarse que una respuesta larga. featured snippets
OpenAI, los creadores de ChatGPT, reconoce que dar respuestas detalladas es una limitación conocida.
El artículo de anuncio de OpenAI dice: announcement article
“The model is often excessively verbose…”
“El modelo suele ser excesivamente detallado…”
El sesgo de ChatGPT de proporcionar respuestas extensas es algo a tener en cuenta al usar la salida de ChatGPT, ya que puede encontrar situaciones en las que las respuestas más cortas y directas son mejores.
5 El contenido de ChatGPT está altamente organizado con una lógica clara
ChatGPT tiene un estilo de escritura que no solo es detallado, sino que también tiende a seguir una plantilla que le da al contenido un estilo único que no es humano.
Esta cualidad inhumana se revela en las diferencias entre cómo los humanos y las máquinas responden a las preguntas.
La película Blade Runner tiene una escena que presenta una serie de preguntas diseñadas para revelar si el sujeto que responde las preguntas es un humano o un androide.
Estas preguntas formaban parte de una prueba ficticia llamada «prueba de Voigt-Kampff». Voigt-Kampff test
Una de las preguntas es:
“You’re watching television. Suddenly you realize there’s a wasp crawling on your arm. What do you do?”
“Estás viendo la televisión De repente te das cuenta de que hay una avispa arrastrándose por tu brazo. ¿A qué te dedicas?»
Una respuesta humana normal sería decir algo como que gritarían, saldrían y lo golpearían, y así sucesivamente.
Pero cuando planteé esta pregunta a ChatGPT, me ofreció una respuesta meticulosamente organizada que resumía la pregunta y luego ofrecía múltiples resultados lógicos posibles, sin poder responder la pregunta real.
Captura de pantalla de ChatGPT respondiendo una pregunta de prueba de Voight-Kampff
La respuesta es muy organizada y lógica, lo que le da una sensación muy poco natural, lo cual es indeseable.
6 ChatGPT es demasiado detallado y completo
ChatGPT fue entrenado de una manera que recompensaba a la máquina cuando los humanos estaban contentos con la respuesta.
Los evaluadores humanos tendieron a preferir respuestas que tuvieran más detalles.
Pero a veces, como en un contexto médico, una respuesta directa es mejor que una completa.
Lo que eso significa es que la máquina debe ser impulsada a ser menos integral y más directa cuando esas cualidades son importantes.
Desde OpenAI: OpenAI:
“These issues arise from biases in the training data (trainers prefer longer answers that look more comprehensive) and well-known over-optimization issues.”
“Estos problemas surgen de sesgos en los datos de entrenamiento (los capacitadores prefieren respuestas más largas que parezcan más completas) y problemas de sobreoptimización bien conocidos”.
7 ChatGPT Mentiras (Hechos de alucinaciones)
El documento de investigación citado anteriormente, ¿Qué tan cerca está ChatGPT de los expertos humanos?, señaló que ChatGPT tiene tendencia a mentir. How Close is ChatGPT to Human Experts?
Informa:
“When answering a question that requires professional knowledge from a particular field, ChatGPT may fabricate facts in order to give an answer…
For example, in legal questions, ChatGPT may invent some non-existent legal provisions to answer the question.
…Additionally, when a user poses a question that has no existing answer, ChatGPT may also fabricate facts in order to provide a response.”
“Al responder una pregunta que requiere conocimiento profesional de un campo en particular, ChatGPT puede fabricar hechos para dar una respuesta…
Por ejemplo, en cuestiones legales, ChatGPT puede inventar algunas disposiciones legales inexistentes para responder a la pregunta.
…Además, cuando un usuario plantea una pregunta que no tiene una respuesta existente, ChatGPT también puede fabricar hechos para proporcionar una respuesta”.
El sitio web de Futurism documentó casos en los que el contenido generado por máquinas publicado en CNET era incorrecto y estaba lleno de «errores tontos». Futurism website documented instances
CNET debería haber tenido una idea de que esto podría suceder, porque OpenAI publicó una advertencia sobre una salida incorrecta: OpenAI published a warning
“ChatGPT sometimes writes plausible-sounding but incorrect or nonsensical answers.”
«ChatGPT a veces escribe respuestas que suenan plausibles pero incorrectas o sin sentido».
CNET afirma haber enviado los artículos generados por máquinas a revisión humana antes de su publicación.
Un problema con la revisión humana es que el contenido de ChatGPT está diseñado para sonar persuasivamente correcto, lo que puede engañar a un revisor que no es un experto en el tema.
8 ChatGPT no es natural porque no es divergente
El trabajo de investigación, ¿Qué tan cerca está ChatGPT de los expertos humanos? How Close is ChatGPT to Human Experts?
ChatGPT es demasiado literal, lo que hace que las respuestas a veces se pierdan porque la IA pasa por alto el tema real.
Los investigadores escribieron:
“ChatGPT’s responses are generally strictly focused on the given question, whereas humans’ are divergent and easily shift to other topics.
In terms of the richness of content, humans are more divergent in different aspects, while ChatGPT prefers focusing on the question itself.
Humans can answer the hidden meaning under the question based on their own common sense and knowledge, but the ChatGPT relies on the literal words of the question at hand…”
“Las respuestas de ChatGPT generalmente se enfocan estrictamente en la pregunta dada, mientras que las de los humanos son divergentes y cambian fácilmente a otros temas.
En cuanto a la riqueza del contenido, los humanos son más divergentes en diferentes aspectos, mientras que ChatGPT prefiere centrarse en la pregunta en sí.
Los humanos pueden responder el significado oculto de la pregunta en función de su propio sentido común y conocimiento, pero el ChatGPT se basa en las palabras literales de la pregunta en cuestión…”
Los humanos son más capaces de desviarse de la pregunta literal, lo cual es importante para responder preguntas del tipo «¿qué pasa con?».
Por ejemplo, si pregunto:
“Horses are too big to be a house pet. What about raccoons?”
“Los caballos son demasiado grandes para ser una mascota doméstica ¿Qué pasa con los mapaches?
La pregunta anterior no pregunta si un mapache es una mascota apropiada. La pregunta es sobre el tamaño del animal.
ChatGPT se centra en la idoneidad del mapache como mascota en lugar de centrarse en el tamaño.
Captura de pantalla de una respuesta ChatGPT demasiado literal
9 ChatGPT contiene un sesgo hacia la neutralidad
La salida de ChatGPT es generalmente neutral e informativa Es un sesgo en la salida que puede parecer útil, pero no siempre lo es.
El trabajo de investigación que acabamos de discutir señaló que la neutralidad es una cualidad no deseada cuando se trata de cuestiones legales, médicas y técnicas.
Los humanos tienden a elegir un lado cuando ofrecen este tipo de opiniones.
10 ChatGPT está predispuesto a ser formal
La salida de ChatGPT tiene un sesgo que evita que se relaje y responda con expresiones ordinarias En cambio, sus respuestas tienden a ser formales.
Los humanos, por otro lado, tienden a responder preguntas con un estilo más coloquial, utilizando lenguaje y jerga cotidianos, lo opuesto a formal.
ChatGPT no usa abreviaturas como GOAT o TL;DR.
Las respuestas también carecen de instancias de ironía, metáforas y humor, lo que puede hacer que el contenido de ChatGPT sea demasiado formal para algunos tipos de contenido.
Los investigadores escriben:
“…ChatGPT likes to use conjunctions and adverbs to convey a logical flow of thought, such as “In general”, “on the other hand”, “Firstly,…, Secondly,…, Finally” and so on.
“…A ChatGPT le gusta usar conjunciones y adverbios para transmitir un flujo de pensamiento lógico, como “En general”, “por otro lado”, “Primero,…, Segundo,…, Finalmente”, etc.
11 ChatGPT todavía está en entrenamiento
Actualmente, ChatGPT aún se encuentra en proceso de capacitación y mejora.
OpenAI recomienda que todo el contenido generado por ChatGPT sea revisado por una persona, y lo considera una práctica recomendada.
OpenAI sugiere mantener a los humanos informados: suggests keeping humans in the loop
“Wherever possible, we recommend having a human review outputs before they are used in practice.
This is especially critical in high-stakes domains, and for code generation.
Humans should be aware of the limitations of the system, and have access to any information needed to verify the outputs (for example, if the application summarizes notes, a human should have easy access to the original notes to refer back).”
“Siempre que sea posible, recomendamos tener una revisión humana de los resultados antes de que se usen en la práctica.
Esto es especialmente crítico en dominios de alto riesgo y para la generación de código.
Los humanos deben ser conscientes de las limitaciones del sistema y tener acceso a cualquier información necesaria para verificar los resultados (por ejemplo, si la aplicación resume las notas, un humano debe tener fácil acceso a las notas originales para consultarlas)”.
Cualidades no deseadas de ChatGPT
Está claro que hay muchos problemas con ChatGPT que lo hacen inadecuado para la generación de contenido sin supervisión. Contiene sesgos y no crea contenido que se sienta natural o que contenga ideas genuinas.
Además, su incapacidad para sentir o crear pensamientos originales lo convierte en una mala elección para generar expresiones artísticas.
Los usuarios deben aplicar indicaciones detalladas para generar contenido que sea mejor que el contenido predeterminado que tiende a generar.
Por último, la revisión humana del contenido generado por máquinas no siempre es suficiente, porque el contenido de ChatGPT está diseñado para parecer correcto, incluso cuando no lo es.
Eso significa que es importante que los revisores humanos sean expertos en la materia que puedan discernir entre el contenido correcto e incorrecto sobre un tema específico.
Más recursos:
Imagen destacada de Shutterstock/fizkes
Leer el articulo original en Search Engine Journal.