
Un equipo en la plataforma de desarrollo de IA Hugging Face ha lanzado lo que afirman son los modelos de IA más pequeños que pueden analizar imágenes, videos cortos y texto.
Los modelos, SmolVLM-256M y SmolVLM-500M, están diseñados para funcionar bien en 'dispositivos restringidos' como computadoras portátiles con alrededor de 1 GB de RAM. El equipo dice que también son ideales para desarrolladores que intentan procesar grandes cantidades de datos de manera muy económica.
SmolVLM-256M y SmolVLM-500M tienen solo 256 millones y 500 millones de parámetros de tamaño, respectivamente. (Los parámetros se corresponden aproximadamente con las habilidades para resolver problemas de un modelo, como su rendimiento en pruebas de matemáticas.) Ambos modelos pueden realizar tareas como describir imágenes o clips de video y responder preguntas sobre PDF y los elementos dentro de ellos, incluido texto escaneado y gráficos.
Para entrenar SmolVLM-256M y SmolVLM-500M, el equipo de Hugging Face utilizó The Cauldron, una colección de 50 conjuntos de datos de imágenes y texto de alta calidad, y Docmatix, un conjunto de escaneos de archivos emparejados con subtítulos detallados. Ambos fueron creados por el equipo M4 de Hugging Face, que desarrolla tecnologías de IA multimodal.

El equipo afirma que tanto SmolVLM-256M como SmolVLM-500M superan a un modelo mucho más grande, Idefics 80B, en pruebas que incluyen AI2D, que evalúa la capacidad de los modelos para analizar diagramas de ciencia de nivel escolar. SmolVLM-256M y SmolVLM-500M están disponibles en la web y para descargar desde Hugging Face bajo una licencia Apache 2.0, lo que significa que se pueden utilizar sin restricciones.
Los modelos pequeños como SmolVLM-256M y SmolVLM-500M pueden ser económicos y versátiles, pero también pueden contener defectos que no son tan pronunciados en modelos más grandes. Un estudio reciente de Google DeepMind, Microsoft Research y el instituto de investigación Mila en Quebec encontró que muchos modelos pequeños funcionan peor de lo esperado en tareas de razonamiento complejas. Los investigadores especularon que esto podría deberse a que los modelos más pequeños reconocen patrones a nivel superficial en los datos, pero tienen dificultades para aplicar ese conocimiento en nuevos contextos.