Los datos de entrenamiento de IA tienen un precio que solo las grandes tecnológicas pueden pagar

Los datos están en el corazón de los sistemas de IA avanzados de hoy en día, pero cada vez cuestan más, lo que los pone fuera del alcance de todas las empresas tecnológicas excepto las más ricas.

El año pasado, James Betker, un investigador de OpenAI, escribió una publicación en su blog personal sobre la naturaleza de los modelos de IA generativa y los conjuntos de datos en los que se entrenan. En ella, Betker afirmaba que los datos de entrenamiento, no el diseño del modelo, la arquitectura u otra característica, eran la clave de los sistemas de IA cada vez más sofisticados y capaces.

"Entrenado en el mismo conjunto de datos el tiempo suficiente, prácticamente todos los modelos convergen al mismo punto", escribió Betker.

¿Está Betker en lo cierto? ¿Son los datos de entrenamiento el factor determinante de lo que un modelo puede hacer, ya sea responder a una pregunta, dibujar manos humanas o generar un paisaje urbano realista?

Ciertamente es plausible.

Máquinas estadísticas

Los sistemas de IA generativa son básicamente modelos probabilísticos —un montón de estadísticas. Adivinan basándose en vastas cantidades de ejemplos qué datos tienen más 'sentido' colocar dónde (por ejemplo, la palabra 'ir' antes de 'al mercado' en la oración 'Voy al mercado'). Parece intuitivo, entonces, que cuanto más ejemplos tenga un modelo, mejor será el rendimiento de los modelos entrenados con esos ejemplos.

"Parece que las mejoras en el rendimiento provienen de los datos", dijo Kyle Lo, un científico investigador senior en el Instituto Allen para la IA (AI2), una organización de investigación de IA sin ánimo de lucro, a TechCrunch, "al menos una vez que tienes una configuración de entrenamiento estable".

Lo dio el ejemplo del modelo generador de texto Llama 3 de Meta, lanzado a principios de este año, que supera al propio modelo OLMo de AI2 a pesar de ser arquitectónicamente muy similar. Llama 3 fue entrenado con significativamente más datos que OLMo, lo que Lo cree explica su superioridad en muchos benchmarks populares de IA.

(Destacaré aquí que los benchmarks ampliamente utilizados en la industria de la IA hoy en día no son necesariamente la mejor medida del rendimiento de un modelo, pero fuera de pruebas cualitativas como las nuestras, son una de las pocas medidas en las que podemos confiar).

Eso no quiere decir que entrenar con conjuntos de datos exponencialmente más grandes sea un camino seguro hacia modelos exponencialmente mejores. Los modelos operan bajo un paradigma de "basura entra, basura sale", señala Lo, así que la curación y la calidad de los datos importan mucho, tal vez más que la mera cantidad.

"Es posible que un modelo pequeño con datos cuidadosamente diseñados supere a un modelo grande", añadió. "Por ejemplo, Falcon 180B, un modelo grande, ocupa el puesto 63 en el benchmark LMSYS, mientras que Llama 2 13B, un modelo mucho más pequeño, ocupa el puesto 56".

En una entrevista con TechCrunch en octubre pasado, el investigador de OpenAI Gabriel Goh dijo que las anotaciones de alta calidad contribuyeron enormemente a la calidad de imagen mejorada en DALL-E 3, el modelo de texto a imagen de OpenAI, en comparación con su predecesor DALL-E 2. "Creo que esta es la principal fuente de las mejoras", dijo. "Las anotaciones de texto son mucho mejores que antes [con DALL-E 2] —ni siquiera se pueden comparar".

Muchos modelos de IA, incluidos DALL-E 3 y DALL-E 2, se entrenan haciendo que anotadores humanos etiqueten datos para que un modelo pueda aprender a asociar esas etiquetas con otras características observadas de esos datos. Por ejemplo, un modelo que recibe muchas imágenes de gatos con anotaciones para cada raza eventualmente 'aprenderá' a asociar términos como bobtail y shorthair con sus rasgos visuales distintivos.

Mal comportamiento

Expertos como Lo se preocupan de que el creciente énfasis en conjuntos de datos de entrenamiento grandes y de alta calidad centralice el desarrollo de la IA en unos pocos actores con presupuestos de miles de millones de dólares que pueden permitirse adquirir estos conjuntos. Una gran innovación en datos sintéticos o en arquitectura fundamental podría alterar el status quo, pero ninguno de los dos parece estar cerca.

"En general, las entidades que gobiernan el contenido que potencialmente es útil para el desarrollo de la IA tienen incentivos para encerrar sus materiales", dijo Lo. "Y a medida que el acceso a los datos se cierra, básicamente estamos bendiciendo a unos pocos pioneros en la adquisición de datos y levantando la escalera para que nadie más pueda acceder a los datos y alcanzarles".

De hecho, donde la carrera por acumular más datos de entrenamiento no ha llevado a comportamientos éticos (e incluso ilegales) como la agregación secreta de contenido protegido por derechos de autor, ha recompensado a las gigantes tecnológicas con fondos suficientes para gastar en licencias de datos.

Los modelos de IA generativa como los de OpenAI se entrenan principalmente con imágenes, texto, audio, videos y otros datos —algunos protegidos por derechos de autor— obtenidos de páginas web públicas (incluidas, problemáticamente, las generadas por IA). Los OpenAI del mundo afirman que el uso legítimo les protege de represalias legales. Muchos titulares de derechos discrepan —pero, al menos por ahora, no pueden hacer mucho para evitar esta práctica.

Hay muchos ejemplos de empresas de IA generativa que adquieren conjuntos de datos masivos a través de medios cuestionables para entrenar sus modelos. Se dice que OpenAI transcribió más de un millón de horas de videos de YouTube sin el permiso de YouTube —o de los creadores— para alimentar a su modelo insignia GPT-4. Google recientemente amplió sus términos de servicio en parte para poder utilizar documentos de Google públicos, reseñas de restaurantes en Google Maps y otro material en línea para sus productos de IA. Y se dice que Meta consideró arriesgarse a demandas para entrenar sus modelos con contenido protegido por derechos de autor.

Mientras tanto, empresas grandes y pequeñas están dependiendo de trabajadores en países del tercer mundo que reciben solo unos pocos dólares por hora para crear anotaciones para conjuntos de entrenamiento. Algunos de estos anotadores —empleados por gigantes startups como Scale AI— trabajan días enteros para completar tareas que los exponen a representaciones gráficas de violencia y derramamiento de sangre sin ningún beneficio o garantía de futuros trabajos.

Costo creciente

En otras palabras, incluso los acuerdos de datos más legítimos no están fomentando exactamente un ecosistema de IA generativa abierto y equitativo.

OpenAI ha gastado cientos de millones de dólares en licenciar contenido de editores de noticias, bibliotecas de medios de archivo y más para entrenar sus modelos de IA —un presupuesto muy por encima del que la mayoría de los grupos de investigación académica, sin ánimo de lucro y startups pueden alcanzar. Meta ha llegado al punto de considerar adquirir la editorial Simon & Schuster para los derechos de extractos de libros electrónicos (finalmente, Simon & Schuster se vendió a la firma de capital privado KKR por 1.620 millones de dólares en 2023).

Con el mercado de datos de entrenamiento de IA esperado a crecer de aproximadamente 2.500 millones de dólares ahora a cerca de 30.000 millones en una década, los corredores y plataformas de datos se apresuran a cobrar grandes sumas —en algunos casos, en contra de las objeciones de sus bases de usuarios.

La biblioteca de medios de archivo Shutterstock ha firmado acuerdos con vendedores de IA que van desde 25 millones a 50 millones de dólares, mientras que Reddit afirma haber obtenido cientos de millones de dólares por licenciar datos a organizaciones como Google y OpenAI. Parece que pocas plataformas con abundantes datos acumulados orgánicamente a lo largo de los años no han firmado acuerdos con desarrolladores de IA generativa, desde Photobucket hasta Tumblr y el sitio de preguntas y respuestas Stack Overflow.

Es la data de las plataformas para vender —al menos dependiendo de qué argumentos legales creas. Pero en la mayoría de los casos, los usuarios no ven un céntimo de las ganancias. Y está dañando a la comunidad de investigación de IA en general.

"Los jugadores más pequeños no podrán permitirse estas licencias de datos, y por lo tanto no podrán desarrollar o estudiar modelos de IA", dijo Lo. "Me preocupa que esto pueda llevar a una falta de escrutinio independiente de las prácticas de desarrollo de IA".

Esfuerzos independientes

Si hay un rayo de esperanza entre la oscuridad, son los pocos esfuerzos independientes y sin ánimo de lucro para crear conjuntos de datos masivos que cualquiera pueda usar para entrenar un modelo de IA generativa.

EleutherAI, un grupo de investigación sin ánimo de lucro que comenzó como un colectivo suelto en Discord en 2020, está trabajando con la Universidad de Toronto, AI2 e investigadores independientes para crear The Pile v2, un conjunto de miles de millones de pasajes de texto obtenidos principalmente del dominio público.

En abril, la startup de IA Hugging Face lanzó FineWeb, una versión filtrada del Common Crawl —el dataset homónimo mantenido por la organización sin ánimo de lucro Common Crawl, compuesto por miles de millones de páginas web— que Hugging Face afirma mejora el rendimiento de modelos en muchos benchmarks.

Algunos esfuerzos por liberar conjuntos de datos de entrenamiento abiertos, como los conjuntos de imágenes de LAION, se han topado con problemas de derechos de autor, privacidad de datos y otros desafíos éticos y legales igualmente serios. Pero algunos de los curadores de datos más dedicados se han comprometido a hacerlo mejor. The Pile v2, por ejemplo, elimina material con derechos de autor problemático que se encontró en su dataset progenitor, The Pile.

La pregunta es si alguno de estos esfuerzos abiertos puede esperar mantener el ritmo de las grandes tecnológicas. Mientras la recolección y curación de datos siga siendo cuestión de recursos, la respuesta probablemente sea no —al menos hasta que una investigación avance nivele el campo de juego.