Contenidos
ChatGPT obtiene acceso al contenido del sitio web para aprender de él Esta es la forma de bloquear su contenido para que no se convierta en datos de entrenamiento de IA.
Existe preocupación acerca de la falta de una manera fácil de optar por que el contenido de uno no se use para entrenar modelos de lenguaje grandes (LLM) como ChatGPT. Hay una manera de hacerlo, pero no es sencillo ni está garantizado que funcione.
Actualizado el 08-09-2023:
OpenAI publicó los estándares Robots.txt para bloquear GPTBot. Robots.txt standards for blocking GPTBot
GPTBot es el agente de usuario para el rastreador de OpenAI OpenAI dice que puede rastrear la web para mejorar sus sistemas.
No dicen que GPTBot se usa para crear los conjuntos de datos que se usan para entrenar ChatGPT Podría ser, pero no lo dicen explícitamente. Así que tenga eso en cuenta si está pensando en bloquear GPTBot para mantenerse fuera del conjunto de datos de entrenamiento de OpenAI, porque eso no es necesariamente lo que sucederá.
Otra consideración es que hay un conjunto de datos público de CommonCrawl, que ya rastrea Internet, por lo que no hay razón para que OpenAI duplique ese trabajo.
Más información sobre cómo bloquear CommonCrawl más abajo en este artículo.
La cadena de agente de usuario completa para GPTBot es:
User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Se puede bloquear (no permitir) a través de robots.txt con las siguientes líneas:
User-agent: GPTBot Disallow: /
GPTBot también obedece las siguientes directivas que controlan qué partes de un sitio web pueden rastrearse y qué partes están prohibidas.
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
OpenAI también publica un rango de IP que se puede usar para identificar el GPTBot oficial (a diferencia de un rastreador que suplanta al agente de usuario). publishes an IP range
Es posible bloquear ese rango de IP a través de .htaccess pero el rango de IP puede cambiar, lo que significa que el archivo .htaccess deberá actualizarse.
Este punto no se puede exagerar, el rango de IP puede cambiar, así que siempre verifique cuáles son los rangos de IP más actuales.
Por lo tanto, es más conveniente usar el rango para confirmar el agente de usuario y bloquear GPTBot con el archivo robots.txt.
Estos son los rangos actuales de IP de GPTBot al 08-09-2023:
20.15.240.64/28 20.15.240.80/28 20.15.240.96/28 20.15.240.176/28 20.15.241.0/28 20.15.242.128/28 20.15.242.144/28 20.15.242.192/28 40.83.2.64/28
Cómo aprenden las IA de su contenido
Los modelos de lenguaje grande (LLM) se entrenan en datos que se originan en múltiples fuentes Muchos de estos conjuntos de datos son de código abierto y se utilizan libremente para entrenar IA.
En general, los modelos de lenguaje grande utilizan una amplia variedad de fuentes para entrenar.
Ejemplos de los tipos de fuentes utilizadas:
- Wikipedia
- Registros judiciales del gobierno
- Libros
- Correos electrónicos
- sitios web rastreados
En realidad, hay portales y sitios web que ofrecen conjuntos de datos que brindan grandes cantidades de información.
Uno de los portales está alojado en Amazon y ofrece miles de conjuntos de datos en el Registro de datos abiertos en AWS. Registry of Open Data on AWS
El portal de Amazon con miles de conjuntos de datos es solo un portal entre muchos otros que contienen más conjuntos de datos.
Wikipedia enumera 28 portales para descargar conjuntos de datos, incluidos los portales Google Dataset y Hugging Face para encontrar miles de conjuntos de datos. Wikipedia lists 28 portals
Conjuntos de datos utilizados para entrenar ChatGPT
ChatGPT se basa en GPT-3.5, también conocido como InstructGPT.
Los conjuntos de datos utilizados para entrenar GPT-3.5 son los mismos que se utilizan para GPT-3 La principal diferencia entre los dos es que GPT-3.5 utilizó una técnica conocida como aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF).
Los cinco conjuntos de datos utilizados para entrenar GPT-3 (y GPT-3.5) se describen en la página 9 del trabajo de investigación, Los modelos de lenguaje son aprendices de pocas oportunidades (PDF) PDF
Los conjuntos de datos son:
- Common Crawl (filtrado)
- WebTexto2
- Libros1
- Libros2
- Wikipedia
De los cinco conjuntos de datos, los dos que se basan en un rastreo de Internet son:
- Rastreo común
- WebTexto2
Acerca del conjunto de datos de WebText2
WebText2 es un conjunto de datos privado de OpenAI creado mediante el rastreo de enlaces de Reddit que tuvo tres votos a favor.
La idea es que estas URL sean confiables y contengan contenido de calidad.
WebText2 es una versión extendida del conjunto de datos original de WebText desarrollado por OpenAI.
El conjunto de datos original de WebText tenía alrededor de 15 mil millones de tokens WebText se utilizó para entrenar GPT-2.
WebText2 es un poco más grande con 19 mil millones de tokens WebText2 es lo que se usó para entrenar GPT-3 y GPT-3.5
AbrirTextoWeb2
WebText2 (creado por OpenAI) no está disponible públicamente.
Sin embargo, existe una versión de código abierto disponible públicamente llamada OpenWebText2.
Solo menciono esto en caso de que alguien quiera saber qué hay en WebText2 Uno puede descargar OpenWebText2 para tener una idea de las URL que contiene.
Se puede descargar una versión limpia de OpenWebText2 aquí La versión sin procesar de OpenWebText2 está disponible aquí. OpenWebText2 can be downloaded here
No pude encontrar información sobre el agente de usuario utilizado para ninguno de los rastreadores, tal vez solo se identifique como Python, no estoy seguro.
Hasta donde yo sé, no hay un agente de usuario para bloquear, aunque no estoy 100% seguro.
Sin embargo, sabemos que si su sitio está vinculado desde Reddit con al menos tres votos a favor, es muy probable que su sitio esté tanto en el conjunto de datos OpenAI WebText2 de código cerrado como en su versión de código abierto, OpenWebText2.
Más información sobre OpenWebText2 está aquí. OpenWebText2 is here
Rastreo común
Uno de los conjuntos de datos más utilizados que consisten en contenido de Internet es el conjunto de datos Common Crawl creado por una organización sin fines de lucro llamada Common Crawl. Common Crawl
Los datos de Common Crawl provienen de un bot que rastrea todo Internet.
Los datos son descargados por organizaciones que desean utilizar los datos y luego se limpian de sitios de spam, etc.
El nombre del bot Common Crawl es CCBot.
CCBot obedece el protocolo robots.txt, por lo que es posible bloquear Common Crawl con Robots.txt y evitar que los datos de su sitio web se conviertan en otro conjunto de datos.
Sin embargo, si su sitio ya ha sido rastreado, es probable que ya esté incluido en varios conjuntos de datos.
Sin embargo, al bloquear Common Crawl, es posible optar por que el contenido de su sitio web no se incluya en nuevos conjuntos de datos provenientes de conjuntos de datos de Common Crawl más nuevos.
Esto es lo que quise decir al principio del artículo cuando escribí que el proceso «no es sencillo ni está garantizado que funcione».
La cadena de agente de usuario de CCBot es:
CCBot/2.0
Agregue lo siguiente a su archivo robots.txt para bloquear el bot Common Crawl:
User-agent: CCBot Disallow: /
Una forma adicional de confirmar si un agente de usuario de CCBot es legítimo es rastrear direcciones IP de Amazon AWS.
CCBot también obedece las directivas de etiquetas meta de robots nofollow.
Use esto en su metaetiqueta de robots:
<meta name="CCBot" content="nofollow">
Una consideración antes de bloquear cualquier bot
Muchos conjuntos de datos, incluido Common Crawl, podrían ser utilizados por empresas que filtran y categorizan las URL para crear listas de sitios web a los que apuntar con publicidad.
Por ejemplo, una empresa llamada Alpha Quantum ofrece un conjunto de datos de direcciones URL clasificadas mediante la taxonomía de la Oficina de publicidad interactiva. El conjunto de datos es útil para el marketing de AdTech y la publicidad contextual. Alpha Quantum offers a dataset
Bloquear la inteligencia artificial para que no use su contenido
Los motores de búsqueda permiten que los sitios web opten por no ser rastreados Common Crawl también permite darse de baja Pero actualmente no hay forma de eliminar el contenido del sitio web de los conjuntos de datos existentes.
Además, los científicos de investigación no parecen ofrecer a los editores de sitios web una forma de optar por no ser rastreados.
El artículo, ¿Es justo el uso de ChatGPT del contenido web?
Muchos editores pueden apreciarlo si en un futuro cercano se les da más voz sobre cómo se usa su contenido, especialmente por productos de IA como ChatGPT.
Si eso sucederá se desconoce en este momento.
Más recursos:
Imagen destacada de Shutterstock/ViDI Studio
Leer el articulo original en Search Engine Journal.