Investigadores de Microsoft dicen haber desarrollado un modelo de IA hiper eficiente que puede funcionar en CPUs

Investigadores de Microsoft afirman haber desarrollado el modelo de IA de 1 bit a mayor escala, también conocido como 'bitnet', hasta la fecha. Llamado BitNet b1.58 2B4T, está disponible públicamente bajo una licencia MIT y puede funcionar en CPUs, incluyendo los de Apple M2.

Los bitnets son modelos comprimidos diseñados para funcionar en hardware ligero. En los modelos estándar, los pesos, los valores que definen la estructura interna de un modelo, a menudo se cuantizan para que los modelos funcionen bien en una amplia gama de máquinas. Cuantizar los pesos reduce el número de bits, las unidades más pequeñas que un ordenador puede procesar, necesarios para representar esos pesos, lo que permite que los modelos se ejecuten en chips con menos memoria y más rapidez.

Los bitnets cuantizan los pesos en solo tres valores: -1, 0 y 1. En teoría, esto los hace mucho más eficientes en memoria y cálculo que la mayoría de los modelos actuales.

Los investigadores de Microsoft aseguran que BitNet b1.58 2B4T es el primer bitnet con 2000 millones de parámetros, siendo "parámetros" en gran medida sinónimo de "pesos". Entrenado en un conjunto de datos de 4 billones de tokens, equivalente a unos 33 millones de libros, según una estimación, BitNet b1.58 2B4T supera a los modelos tradicionales de tamaños similares, afirman los investigadores.

BitNet b1.58 2B4T no se destaca por encima de los modelos rivales de 2000 millones de parámetros, pero aparentemente se defiende bien. Según las pruebas de los investigadores, el modelo supera a Meta's Llama 3.2 1B, a Google's Gemma 3 1B y a Alibaba's Qwen 2.5 1.5B en pruebas como GSM8K (una colección de problemas matemáticos de nivel escolar) y PIQA (que evalúa las habilidades de razonamiento físico común).

Quizás más impresionante, BitNet b1.58 2B4T es más rápido que otros modelos de su tamaño, en algunos casos, el doble de rápido, mientras utiliza una fracción de la memoria.

Sin embargo, hay un pequeño detalle a tener en cuenta. Lograr ese rendimiento requiere el uso del framework personalizado de Microsoft, bitnet.cpp, que actualmente solo funciona con cierto hardware. Ausentes de la lista de chips compatibles están las GPUs, que dominan el panorama de la infraestructura de IA.

Todo esto quiere decir que los bitnets pueden suponer una promesa, especialmente para dispositivos con recursos limitados. Pero la compatibilidad es, y probablemente seguirá siendo, un gran punto de discordia.