Elon Musk está de acuerdo en que hemos agotado los datos de entrenamiento de IA

\n

Elon Musk coincide con otros expertos en IA en que ya quedan pocos datos del mundo real para entrenar modelos de IA.

\n

“Básicamente hemos agotado la suma acumulativa del conocimiento humano… en el entrenamiento de IA”, dijo Musk durante una conversación transmitida en vivo con el presidente de Stagwell, Mark Penn, transmitida en X el miércoles pasado. "Eso ocurrió básicamente el año pasado."

\n
\n\t
\n\t
\n
\n
\n\t
\n\t
\n
\n

Musk, dueño de la compañía de IA xAI, hizo eco de los temas que el ex científico jefe de OpenAI, Ilya Sutskever, abordó en NeurIPS, la conferencia de aprendizaje automático, durante una conferencia en diciembre. Sutskever, quien dijo que la industria de la IA había alcanzado lo que él llamó "pico de datos", predijo que la falta de datos de entrenamiento obligará a un cambio en la forma en que se desarrollan los modelos hoy en día.

\n

De hecho, Musk sugirió que los datos sintéticos, es decir, datos generados por los propios modelos de IA, son el camino a seguir. “La única forma de complementar [los datos del mundo real] es con datos sintéticos, donde la IA crea [datos de entrenamiento]”, dijo. "Con datos sintéticos… [la IA] se evaluará a sí misma y pasará por este proceso de autoaprendizaje."

\n

Otras compañías, incluidas gigantes tecnológicos como Microsoft, Meta, OpenAI y Anthropic, ya están utilizando datos sintéticos para entrenar modelos de IA de vanguardia. Gartner estima que el 60% de los datos utilizados para proyectos de IA y análisis en 2024 fueron generados de forma sintética.

\n

El Phi-4 de Microsoft, que se hizo de código abierto a principios del miércoles, se entrenó con datos sintéticos junto con datos del mundo real. Lo mismo ocurrió con los modelos Gemma de Google. Anthropic utilizó algunos datos sintéticos para desarrollar uno de sus sistemas más eficientes, Claude 3.5 Sonnet. Y Meta ajustó sus series de modelos más recientes, Llama, utilizando datos generados por IA.

\n

Entrenar con datos sintéticos tiene otras ventajas, como ahorros en costos. La startup de IA Writer afirma que su modelo Palmyra X 004, que se desarrolló utilizando casi exclusivamente fuentes sintéticas, costó solo $700,000 en comparación con estimaciones de $4.6 millones para un modelo de OpenAI de tamaño similar.

\n

Pero también existen desventajas. Algunas investigaciones sugieren que los datos sintéticos pueden llevar a un colapso del modelo, donde un modelo se vuelve menos "creativo" y más sesgado en sus resultados, comprometiendo seriamente su funcionalidad. Dado que los modelos crean datos sintéticos, si los datos utilizados para entrenar estos modelos tienen sesgos y limitaciones, sus salidas estarán igualmente contaminadas.