Contenidos
Un memorando filtrado reconoce que Google no puede competir contra la IA de código abierto y sugiere una táctica sorprendente para recuperar el dominio
Una nota filtrada de Google ofrece un resumen punto por punto de por qué Google está perdiendo frente a la IA de código abierto y sugiere un camino de regreso al dominio y a la propiedad de la plataforma.
El memorando comienza reconociendo que su competidor nunca fue OpenAI y siempre iba a ser de código abierto.
No puede competir contra el código abierto
Además, admiten que no están posicionados de ninguna manera para competir contra el código abierto, reconociendo que ya han perdido la lucha por el dominio de la IA.
Ellos escribieron:
“We’ve done a lot of looking over our shoulders at OpenAI. Who will cross the next milestone? What will the next move be?
But the uncomfortable truth is, we aren’t positioned to win this arms race and neither is OpenAI. While we’ve been squabbling, a third faction has been quietly eating our lunch.
I’m talking, of course, about open source.
Plainly put, they are lapping us. Things we consider “major open problems” are solved and in people’s hands today.”
“Hemos mirado mucho por encima del hombro en OpenAI ¿Quién cruzará el próximo hito?
Pero la verdad incómoda es que no estamos posicionados para ganar esta carrera armamentista y OpenAI tampoco. Mientras nos peleamos, una tercera facción ha estado comiendo nuestro almuerzo en silencio.
Estoy hablando, por supuesto, de código abierto.
En pocas palabras, nos están lamiendo Las cosas que consideramos “principales problemas abiertos” están resueltas y en manos de la gente hoy”.
La mayor parte del memorando se dedica a describir cómo el código abierto supera a Google.
Y aunque Google tiene una ligera ventaja sobre el código abierto, el autor del memorándum reconoce que se está escapando y nunca volverá.
El autoanálisis de las cartas metafóricas que ellos mismos han repartido es considerablemente pesimista:
“While our models still hold a slight edge in terms of quality, the gap is closing astonishingly quickly.
Open-source models are faster, more customizable, more private, and pound-for-pound more capable.
They are doing things with $100 and 13B params that we struggle with at $10M and 540B.
And they are doing so in weeks, not months.”
“Mientras que nuestros modelos todavía tienen una ligera ventaja en términos de calidad, la brecha se está cerrando asombrosamente rápido.
Los modelos de código abierto son más rápidos, más personalizables, más privados y, libra por libra, más capaces.
Están haciendo cosas con parámetros de $ 100 y 13 mil millones con los que luchamos a $ 10 millones y 540 mil millones.
Y lo están haciendo en semanas, no en meses”.
El tamaño grande del modelo de idioma no es una ventaja
Quizás la realización más escalofriante expresada en el memorando es que el tamaño de Google ya no es una ventaja.
El tamaño extravagantemente grande de sus modelos ahora se ve como desventajas y de ninguna manera como la ventaja insuperable que pensaban que eran.
El memorando filtrado enumera una serie de eventos que indican que el control de la IA por parte de Google (y OpenAI) puede terminar rápidamente.
Cuenta que hace apenas un mes, en marzo de 2023, la comunidad de código abierto obtuvo un modelo de código abierto filtrado de lenguaje grande desarrollado por Meta llamado LLaMA.
En cuestión de días y semanas, la comunidad global de código abierto desarrolló todas las piezas de construcción necesarias para crear clones de Bard y ChatGPT.
Pasos sofisticados como el ajuste de instrucciones y el aprendizaje reforzado a partir de comentarios humanos (RLHF) fueron replicados rápidamente por la comunidad global de código abierto, nada menos que a bajo precio.
- Ajuste de instrucciones
- Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)
RLHF es la técnica utilizada por OpenAI para crear InstructGPT, que es un modelo subyacente de ChatGPT y permite que los modelos GPT-3.5 y GPT-4 tomen instrucciones y completen tareas.
RLHF es el fuego que el código abierto ha tomado de
La escala del código abierto asusta a Google
Lo que asusta a Google en particular es el hecho de que el movimiento de código abierto puede escalar sus proyectos de una manera que el código cerrado no puede.
El conjunto de datos de preguntas y respuestas utilizado para crear el clon de ChatGPT de código abierto, Dolly 2.0, fue creado en su totalidad por miles de empleados voluntarios.
Google y OpenAI se basaron parcialmente en preguntas y respuestas extraídas de sitios como Reddit.
Se afirma que el conjunto de datos de preguntas y respuestas de código abierto creado por Databricks es de mayor calidad porque los humanos que contribuyeron a crearlo eran profesionales y las respuestas que proporcionaron fueron más largas y más sustanciales que las que se encuentran en un conjunto de datos típico de preguntas y respuestas extraído de un
La nota filtrada observó:
“At the beginning of March the open source community got their hands on their first really capable foundation model, as Meta’s LLaMA was leaked to the public.
It had no instruction or conversation tuning, and no RLHF.
Nonetheless, the community immediately understood the significance of what they had been given.
A tremendous outpouring of innovation followed, with just days between major developments…
Here we are, barely a month later, and there are variants with instruction tuning, quantization, quality improvements, human evals, multimodality, RLHF, etc. etc. many of which build on each other.
Most importantly, they have solved the scaling problem to the extent that anyone can tinker.
Many of the new ideas are from ordinary people.
The barrier to entry for training and experimentation has dropped from the total output of a major research organization to one person, an evening, and a beefy laptop.”
“A principios de marzo, la comunidad de código abierto consiguió su primer modelo de base realmente capaz, ya que LLaMA de Meta se filtró al público.
No tenía instrucciones ni sintonización de conversación, ni RLHF.
Sin embargo, la comunidad entendió de inmediato el significado de lo que se les había dado.
Siguió una tremenda efusión de innovación, con solo unos días entre los principales desarrollos…
Aquí estamos, apenas un mes después, y hay variantes con ajuste de instrucciones, cuantización, mejoras de calidad, evaluaciones humanas, multimodalidad, RLHF, etc. etc. muchos de los cuales se construyen unos sobre otros.
Lo más importante es que han resuelto el problema de la escala en la medida en que cualquiera puede modificarlo.
Muchas de las nuevas ideas provienen de la gente común.
La barrera de entrada para la capacitación y la experimentación se ha reducido de la producción total de una importante organización de investigación a una persona, una noche y una computadora portátil robusta”.
En otras palabras, lo que tomó meses y años para que Google y OpenAI entrenaran y construyeran, solo tomó unos días para la comunidad de código abierto.
Ese tiene que ser un escenario verdaderamente aterrador para Google.
Es una de las razones por las que he escrito tanto sobre el movimiento de la IA de código abierto, ya que realmente parece dónde estará el futuro de la IA generativa en un período de tiempo relativamente corto.
El código abierto ha superado históricamente al código cerrado
El memorando cita la experiencia reciente con DALL-E de OpenAI, el modelo de aprendizaje profundo utilizado para crear imágenes en comparación con la difusión estable de código abierto como un presagio de lo que está ocurriendo actualmente en la IA generativa como Bard y ChatGPT.
Dall-e fue lanzado por OpenAI en enero de 2021 Stable Diffusion, la versión de código abierto, se lanzó un año y medio después, en agosto de 2022, y en unas pocas semanas superó la popularidad de Dall-E.
Este gráfico de línea de tiempo muestra qué tan rápido Stable Diffusion superó a Dall-E:
La línea de tiempo de Google Trends anterior muestra cómo el interés en el modelo de difusión estable de código abierto superó ampliamente al de Dall-E en cuestión de tres semanas de su lanzamiento.
Y aunque Dall-E estuvo fuera durante un año y medio, el interés en Stable Diffusion siguió aumentando exponencialmente, mientras que Dall-E de OpenAI permaneció estancado.
La amenaza existencial de que eventos similares superen a Bard (y OpenAI) le está dando pesadillas a Google.
El proceso de creación del modelo de código abierto es superior
Otro factor que alarma a los ingenieros de Google es que el proceso para crear y mejorar los modelos de código abierto es rápido, económico y se presta perfectamente a un enfoque colaborativo global común a los proyectos de código abierto.
El memorándum observa que las nuevas técnicas como LoRA (Adaptación de rango bajo de modelos de lenguaje grande), permiten el ajuste fino de los modelos de lenguaje en cuestión de días con un costo extremadamente bajo, con el LLM final comparable a los LLM mucho más caros.
Otro beneficio es que los ingenieros de código abierto pueden construir sobre el trabajo anterior, iterar, en lugar de tener que empezar desde cero.
Construir grandes modelos de lenguaje con miles de millones de parámetros en la forma en que OpenAI y Google lo han estado haciendo hoy en día no es necesario.
Ese puede ser el punto que Sam Alton insinuó recientemente cuando dijo que la era de los modelos masivos de lenguaje grande ha terminado.
El autor del memorándum de Google comparó el enfoque barato y rápido de LoRA para crear LLM con el enfoque actual de la gran IA.
El autor del memorando reflexiona sobre las deficiencias de Google:
“By contrast, training giant models from scratch not only throws away the pretraining, but also any iterative improvements that have been made on top. In the open source world, it doesn’t take long before these improvements dominate, making a full retrain extremely costly.
We should be thoughtful about whether each new application or idea really needs a whole new model.
…Indeed, in terms of engineer-hours, the pace of improvement from these models vastly outstrips what we can do with our largest variants, and the best are already largely indistinguishable from ChatGPT.”
“Por el contrario, entrenar modelos gigantes desde cero no solo descarta el entrenamiento previo, sino también cualquier mejora iterativa que se haya realizado en la parte superior. En el mundo del código abierto, no pasa mucho tiempo antes de que estas mejoras dominen, lo que hace que una nueva capacitación completa sea extremadamente costosa.
Deberíamos considerar si cada nueva aplicación o idea realmente necesita un modelo completamente nuevo.
… De hecho, en términos de horas de ingeniería, el ritmo de mejora de estos modelos supera ampliamente lo que podemos hacer con nuestras variantes más grandes, y los mejores ya son en gran medida indistinguibles de ChatGPT”.
El autor concluye dándose cuenta de que lo que pensaban que era su ventaja, sus modelos gigantes y el costo prohibitivo concomitante, en realidad era una desventaja.
La naturaleza de colaboración global del código abierto es más eficiente y mucho más rápida en la innovación.
¿Cómo puede un sistema de código cerrado competir contra la abrumadora multitud de ingenieros de todo el mundo?
El autor concluye que no pueden competir y que la competencia directa es, en sus palabras, una “propuesta perdedora”.
Esa es la crisis, la tormenta, que se está desarrollando fuera de Google.
Si no puedes vencer el código abierto, únete a ellos
El único consuelo que el autor de la nota encuentra en el código abierto es que, debido a que las innovaciones de código abierto son gratuitas, Google también puede aprovecharlas.
Por último, el autor concluye que el único enfoque disponible para Google es poseer la plataforma de la misma manera que dominan las plataformas de código abierto Chrome y Android.
Señalan cómo Meta se está beneficiando del lanzamiento de su modelo de lenguaje grande LLaMA para la investigación y cómo ahora tienen a miles de personas haciendo su trabajo de forma gratuita.
Quizás la gran conclusión del memorándum es que, en un futuro cercano, Google puede intentar replicar su dominio de código abierto lanzando sus proyectos sobre una base de código abierto y, por lo tanto, poseer la plataforma.
El memorando concluye que pasar al código abierto es la opción más viable:
“Google should establish itself a leader in the open source community, taking the lead by cooperating with, rather than ignoring, the broader conversation.
This probably means taking some uncomfortable steps, like publishing the model weights for small ULM variants. This necessarily means relinquishing some control over our models.
But this compromise is inevitable.
We cannot hope to both drive innovation and control it.”
“Google debería establecerse como líder en la comunidad de código abierto, tomando la iniciativa cooperando con, en lugar de ignorar, la conversación más amplia.
Esto probablemente signifique tomar algunos pasos incómodos, como publicar los pesos del modelo para variantes pequeñas de ULM. Esto necesariamente significa renunciar a cierto control sobre nuestros modelos.
Pero este compromiso es inevitable.
No podemos esperar impulsar la innovación y controlarla”.
El código abierto se va con el fuego de la IA
La semana pasada hice una alusión al mito griego del héroe humano Prometeo robando el fuego de los dioses en el Monte Olimpo, enfrentando el código abierto de Prometeo contra los «dioses olímpicos» de Google y OpenAI:
Tuiteé: tweeted
“While Google, Microsoft and Open AI squabble amongst each other and have their backs turned, is Open Source walking off with their fire?”
“Mientras Google, Microsoft y Open AI se pelean entre sí y se dan la espalda, ¿el código abierto se está yendo con su fuego?”
La filtración del memorando de Google confirma esa observación, pero también apunta a un posible cambio de estrategia en Google para unirse al movimiento de código abierto y, por lo tanto, cooptarlo y dominarlo de la misma manera que lo hicieron con Chrome y Android.
Lea la nota de Google filtrada aquí:
Google «No tenemos foso, y OpenAI tampoco» Google “We Have No Moat, And Neither Does OpenAI”
Leer el articulo original en Search Engine Journal.