Una técnica popular para hacer que la IA sea más eficiente tiene desventajas

Una de las técnicas más utilizadas para hacer que los modelos de IA sean más eficientes, la cuantificación, tiene límites, y la industria podría estar acercándose rápidamente a ellos.

En el contexto de la IA, la cuantificación se refiere a reducir el número de bits, las unidades más pequeñas que una computadora puede procesar, necesarias para representar información. Considere esta analogía: cuando alguien pregunta la hora, probablemente dirías "mediodía" en lugar de "doce cientos, un segundo y cuatro milisegundos". Eso es cuantificar; ambas respuestas son correctas, pero una es ligeramente más precisa. Cuánta precisión necesitas realmente depende del contexto.

Los modelos de IA están compuestos por varios componentes que pueden ser cuantificados, en particular los parámetros, las variables internas que los modelos utilizan para hacer predicciones o tomar decisiones. Esto es conveniente, considerando que los modelos realizan millones de cálculos cuando se ejecutan. Los modelos cuantificados con menos bits que representan sus parámetros son menos exigentes matemáticamente y, por lo tanto, computacionalmente. (Para ser claro, este es un proceso diferente al "destilado", que es un proceso más complejo y selectivo de poda de parámetros).

Pero la cuantificación puede tener más compensaciones de las que se asumían previamente.

El modelo que se encoge cada vez más

Según un estudio de investigadores de Harvard, Stanford, MIT, Databricks y Carnegie Mellon, los modelos cuantificados funcionan peor si la versión original, no cuantificada, del modelo se entrenó durante un largo período con mucha información. En otras palabras, en cierto punto, puede ser mejor simplemente entrenar un modelo más pequeño en lugar de reducir uno grande.

Esto podría ser malas noticias para las compañías de IA que entrenan modelos extremadamente grandes (conocidos por mejorar la calidad de las respuestas) y luego los cuantifican en un esfuerzo por hacerlos menos costosos de servir.

Los efectos ya se están manifestando. Hace unos meses, desarrolladores y académicos informaron que la cuantificación del modelo Llama 3 de Meta tendía a ser "más perjudicial" en comparación con otros modelos, potencialmente debido a la forma en que fue entrenado.

"En mi opinión, el principal costo para todos en IA es y seguirá siendo la inferencia, y nuestro trabajo muestra una forma importante de reducirlo que no funcionará para siempre", dijo Tanishq Kumar, estudiante de matemáticas de Harvard y primer autor del artículo, a TechCrunch.

Contrariamente a la creencia popular, la inferencia de modelos de IA, como cuando ChatGPT responde a una pregunta, a menudo es más costosa en conjunto que el entrenamiento de modelos. Por ejemplo, consideremos que Google gastó un estimado de $191 millones para entrenar uno de sus modelos Gemini insignia, ciertamente una suma muy grande. Pero si la compañía usara un modelo para generar respuestas de 50 palabras a la mitad de todas las consultas de búsqueda de Google, gastaría aproximadamente $6 mil millones al año.

Los principales laboratorios de IA han adoptado el entrenamiento de modelos en conjuntos de datos masivos bajo la suposición de que "escalar" - aumentar la cantidad de datos y de cómputo utilizada en el entrenamiento - conducirá a una IA cada vez más capaz.

Por ejemplo, Meta entrenó Llama 3 en un conjunto de 15 billones de tokens. (Los tokens representan bits de datos en bruto; 1 millón de tokens equivale aproximadamente a unas 750,000 palabras). La generación anterior, Llama 2, se entrenó en "solo" 2 billones de tokens. A principios de diciembre, Meta lanzó un nuevo modelo, Llama 3.3 70B, que según la compañía "mejora el rendimiento principal a un costo significativamente menor".

La evidencia sugiere que a medida que se escala, se obtienen retornos decrecientes; Anthropic y Google informaron recientemente que entrenaron enormes modelos que no cumplieron con las expectativas de referencia internas. Pero no hay muchas señales de que la industria esté lista para alejarse significativamente de estos enfoques de escalado arraigados.

¿Qué tan precisa, exactamente?

Entonces, si los laboratorios son reacios a entrenar modelos en conjuntos de datos más pequeños, ¿hay alguna manera de hacer que los modelos sean menos susceptibles a la degradación? Posiblemente. Kumar dice que él y los coautores encontraron que entrenar modelos en "baja precisión" puede hacerlos más robustos. Permítanos sumergirnos un poco en el tema por un momento.

"Precisión" aquí se refiere al número de dígitos que un tipo de datos numéricos puede representar con precisión. Los tipos de datos son colecciones de valores de datos, generalmente especificados por un conjunto de valores posibles y operaciones permitidas; el tipo de datos FP8, por ejemplo, utiliza solo 8 bits para representar un número de punto flotante.

La mayoría de los modelos hoy en día se entrenan con una precisión de 16 bits o "media precisión" y luego se cuantifican a una precisión de 8 bits. Algunos componentes del modelo (por ejemplo, sus parámetros) se convierten a un formato de menor precisión con el costo de cierta precisión. Piense en hacer cálculos con algunas decimales, pero luego redondeando al decimal más cercano, a menudo le da lo mejor de ambos mundos.

Los fabricantes de hardware como Nvidia están impulsando hacia una precisión más baja para la inferencia de modelos cuantificados. El nuevo chip de la compañía, Blackwell, soporta precisión de 4 bits, específicamente un tipo de datos llamado FP4; Nvidia ha presentado esto como una ventaja para los centros de datos con restricciones de memoria y energía.

Pero una precisión de cuantificación extremadamente baja podría no ser deseable. Según Kumar, a menos que el modelo original sea increíblemente grande en términos de la cantidad de sus parámetros, precisiones inferiores a 7 u 8 bits podrían ver una disminución notable en la calidad.

Si todo esto parece un poco técnico, no se preocupe, lo es. Pero la idea principal es simplemente que los modelos de IA no se comprenden completamente, y los atajos conocidos que funcionan en muchos tipos de computación no funcionan aquí. No dirías "mediodía" si alguien te preguntara cuándo comenzó una carrera de 100 metros, ¿verdad? No es tan obvio, por supuesto, pero la idea es la misma:

"El punto clave de nuestro trabajo es que hay limitaciones que no se pueden resolver de manera ingenua", concluyó Kumar. "Esperamos que nuestro trabajo añada matices a la discusión que a menudo busca predeterminados cada vez más bajos de precisión para el entrenamiento y la inferencia".

Kumar reconoce que su estudio y el de sus colegas fue a una escala relativamente pequeña, y planean probarlo con más modelos en el futuro. Pero cree que al menos una idea se mantendrá: no hay almuerzo gratis cuando se trata de reducir los costos de inferencia.

"La precisión de los bits importa, y no es gratuita", dijo. "No puedes reducirla para siempre sin que los modelos sufran. Los modelos tienen capacidad finita, así que en lugar de intentar encajar un cuatrillón de tokens en un modelo pequeño, en mi opinión mucho más esfuerzo se pondrá en la curaduría y filtrado meticulosos de datos, para que solo los datos de la más alta calidad se introduzcan en modelos más pequeños. Soy optimista de que las nuevas arquitecturas que tengan como objetivo hacer que el entrenamiento de baja precisión sea estable serán importantes en el futuro".

Esta historia se publicó originalmente el 17 de noviembre de 2024 y se actualizó el 23 de diciembre con nueva información.