La industria de la IA está obsesionada con Chatbot Arena, pero podría no ser el mejor punto de referencia

En los últimos meses, ejecutivos tecnológicos como Elon Musk han promocionado el rendimiento de los modelos de IA de sus empresas en un benchmark particular: Chatbot Arena.

Mantenida por una organización sin fines de lucro conocida como LMSYS, Chatbot Arena se ha convertido en una especie de obsesión de la industria. Las publicaciones sobre actualizaciones en las tablas de clasificación de modelos atraen cientos de visualizaciones y compartidos en Reddit y X, y la cuenta oficial de LMSYS X tiene más de 54,000 seguidores. Millones de personas han visitado el sitio web de la organización en el último año.

Sin embargo, existen algunas preguntas persistentes sobre la capacidad de Chatbot Arena para decirnos qué tan "buenos" son realmente estos modelos.

En busca de un nuevo punto de referencia

Antes de profundizar, tomémonos un momento para entender qué es exactamente LMSYS, y cómo se volvió tan popular.

La organización sin fines de lucro se lanzó apenas en abril como un proyecto encabezado por estudiantes y profesores de Carnegie Mellon, SkyLab de UC Berkeley y UC San Diego. Algunos de los miembros fundadores ahora trabajan en Google DeepMind, xAI de Musk y Nvidia; hoy en día, LMSYS está dirigida principalmente por investigadores afiliados a SkyLab.

LMSYS no tenía como objetivo crear una tabla de clasificación viral de modelos. La misión fundacional del grupo era hacer que los modelos (específicamente modelos generativos al estilo de ChatGPT de OpenAI) fueran más accesibles mediante su co-desarrollo y código abierto. Pero poco después de la fundación de LMSYS, sus investigadores, insatisfechos con el estado de los benchmarks de IA, vieron valor en crear una herramienta de pruebas propia.

“Los benchmarks actuales no abordan adecuadamente las necesidades de los modelos de última generación, especialmente en la evaluación de las preferencias de los usuarios”, escribieron los investigadores en un documento técnico publicado en marzo. “Por lo tanto, existe una necesidad urgente de una plataforma de evaluación abierta y en directo basada en la preferencia humana que pueda reflejar de manera más precisa el uso del mundo real.”

De hecho, como hemos mencionado anteriormente, los benchmarks más comúnmente utilizados hoy en día hacen un mal trabajo al capturar cómo interactúa la persona promedio con los modelos. Muchas de las habilidades que los benchmarks investigan, como resolver problemas matemáticos de nivel de doctorado, rara vez serán relevantes para la mayoría de las personas que utilizan, por ejemplo, Claude.

Los creadores de LMSYS sintieron algo similar, y así idearon una alternativa: Chatbot Arena, un benchmark crowdsourced diseñado para capturar los aspectos "matizados" de los modelos y su rendimiento en tareas abiertas y en el mundo real.

Los rankings de Chatbot Arena a principios de septiembre de 2024.
Créditos de la imagen: LMSYS

Chatbot Arena permite a cualquier persona en la web hacer una pregunta (o preguntas) a dos modelos seleccionados al azar y de manera anónima. Una vez que una persona acepta los Términos de Servicio que permiten que sus datos se utilicen para la investigación futura de LMSYS, modelos y proyectos relacionados, pueden votar por sus respuestas preferidas de los dos modelos en duelo (también pueden declarar un empate o decir "ambos son malos"), momento en el que se revelan las identidades de los modelos.

La interfaz de Chatbot Arena.
Créditos de la imagen: LMSYS

Este flujo produce una "diversa variedad" de preguntas que un usuario típico podría hacer a cualquier modelo generativo, escribieron los investigadores en el documento de marzo. “Armados con estos datos, empleamos una serie de poderosas técnicas estadísticas [...] para estimar el ranking de modelos de manera lo más confiable y eficiente posible”, explicaron.

Desde el lanzamiento de Chatbot Arena, LMSYS ha añadido docenas de modelos abiertos a su herramienta de pruebas, y se ha asociado con universidades como la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI), así como con empresas como OpenAI, Google, Anthropic, Microsoft, Meta, Mistral y Hugging Face para poner sus modelos a disposición de las pruebas. Chatbot Arena ahora cuenta con más de 100 modelos, incluidos modelos multimodales (modelos que pueden entender datos más allá del texto) como el GPT-4o de OpenAI y el Claude 3.5 Sonnet de Anthropic.

De esta manera se han enviado y evaluado más de un millón de preguntas y respuestas de esta forma, produciendo una gran cantidad de datos de clasificación.

Sesgo y falta de transparencia

En el documento de marzo, los fundadores de LMSYS afirman que las preguntas contribuidas por los usuarios de Chatbot Arena son "suficientemente diversas" para medir una variedad de casos de uso de IA. “Debido a su valor único y apertura, Chatbot Arena se ha convertido en una de las tablas de clasificación de modelos más referenciadas”, escriben.

Pero ¿qué tan informativos son realmente los resultados? Eso está en debate.

Yuchen Lin, científico investigador del instituto sin fines de lucro Instituto Allen de IA, dice que LMSYS no ha sido completamente transparente sobre las capacidades de los modelos, el conocimiento y las habilidades que está evaluando en Chatbot Arena. En marzo, LMSYS lanzó un conjunto de datos, LMSYS-Chat-1M, que contiene un millón de conversaciones entre usuarios y 25 modelos en Chatbot Arena. Pero no ha actualizado el conjunto de datos desde entonces.

“La evaluación no es reproducible, y los datos limitados publicados por LMSYS hacen que sea desafiante estudiar las limitaciones de los modelos en profundidad”, dijo Lin.

Comparando dos modelos utilizando la herramienta de Chatbot Arena.
Créditos de la imagen: LMSYS

Hasta el punto en que LMSYS ha detallado su enfoque de pruebas, sus investigadores dijeron en el documento de marzo que utilizan "algoritmos de muestreo eficientes" para enfrentar modelos entre sí "de manera que acelera la convergencia de clasificaciones mientras mantiene la validez estadística". Escribieron que LMSYS recopila aproximadamente 8,000 votos por modelo antes de actualizar los rankings de Chatbot Arena, y ese umbral suele alcanzarse después de varios días.

Pero Lin siente que los votos no tienen en cuenta la capacidad —o incapacidad— de las personas para detectar alucinaciones de los modelos, ni las diferencias en sus preferencias, lo que hace que sus votos no sean confiables. Por ejemplo, algunos usuarios pueden preferir respuestas más largas y con estilo de marcado, mientras que otros pueden preferir respuestas más concisas.

La conclusión aquí es que dos usuarios podrían dar respuestas opuestas al mismo par de respuestas, y ambas serían igualmente válidas —pero eso cuestiona fundamentalmente el valor del enfoque. Solo recientemente LMSYS ha experimentado con el control del "estilo" y "contenido" de las respuestas de los modelos en Chatbot Arena.

“Los datos de preferencia humana recopilados no tienen en cuenta estos sesgos sutiles, y la plataforma no diferencia entre 'A es significativamente mejor que B' y 'A es solo ligeramente mejor que B'”, dijo Lin. “Si bien el postprocesamiento puede mitigar algunos de estos sesgos, los datos de preferencia humana en bruto siguen siendo ruidosos.”

Mike Cook, investigador en la Universidad de Queen Mary de Londres especializado en IA y diseño de juegos, estuvo de acuerdo con la evaluación de Lin. “Pudiste haber ejecutado Chatbot Arena en 1998 y todavía hablar de cambios dramáticos en las clasificaciones o grandes chatbots poderosos, pero serían terribles”, agregó, señalando que si bien Chatbot Arena se presenta como una prueba empírica, se reduce a una calificación relativa de modelos.

El sesgo más problemático que se cierne sobre la cabeza de Chatbot Arena es la composición actual de su base de usuarios.

Como el benchmark se volvió popular casi por completo a través del boca a boca en círculos de IA e industria tecnológica, es poco probable que haya atraído a una multitud muy representativa, dice Lin. Aportando credibilidad a su teoría, las principales preguntas en el conjunto de datos LMSYS-Chat-1M versan sobre programación, herramientas de IA, errores y correcciones de software y diseño de aplicaciones —no son los tipos de cosas que esperarías que preguntaran personas no técnicas.

“La distribución de los datos de prueba puede no reflejar de manera precisa a los usuarios humanos reales del mercado objetivo”, dijo Lin. “Además, el proceso de evaluación de la plataforma es en gran medida incontrolable, dependiendo principalmente del postprocesamiento para etiquetar cada consulta con varias etiquetas, que luego se utilizan para desarrollar calificaciones específicas de tareas. Este enfoque carece de rigor sistemático, lo que dificulta evaluar preguntas de razonamiento complejo basadas únicamente en la preferencia humana.”

Probando modelos multimodales en Chatbot Arena.
Créditos de la imagen: LMSYS

Cook señaló que debido a que los usuarios de Chatbot Arena se seleccionan a sí mismos —están interesados en probar modelos en primer lugar— pueden ser menos propensos a realizar pruebas exhaustivas o llevar los modelos a sus límites.

“No es una buena manera de llevar a cabo un estudio en general”, dijo Cook. “Los evaluadores hacen una pregunta y votan por qué modelo es 'mejor' —pero 'mejor' no está realmente definido en ningún lugar por LMSYS. Volver muy bueno en este benchmark podría hacer que la gente piense que un chatbot AI ganador es más humano, más preciso, más seguro, más confiable, etc. —pero realmente no significa ninguna de esas cosas.”

LMSYS está tratando de equilibrar estos sesgos utilizando sistemas automatizados —MT-Bench y Arena-Hard-Auto— que utilizan los propios modelos (GPT-4 y GPT-4 Turbo de OpenAI) para clasificar la calidad de las respuestas de otros modelos. (LMSYS publica estas clasificaciones junto con los votos). Pero si bien LMSYS afirma que los modelos "se ajustan bien a las preferencias humanas controladas y crowdsourced", el asunto está lejos de resolverse.

Lazos comerciales y compartición de datos

Los crecientes lazos comerciales de LMSYS son otra razón para tomar los rankings con escepticismo, dice Lin.

Algunos vendedores como OpenAI, que sirven sus modelos a través de APIs, tienen acceso a datos de uso de modelos, que podrían utilizar para básicamente “enseñar para el examen” si lo desearan. Esto hace que el proceso de pruebas sea potencialmente injusto para los modelos abiertos y estáticos que se ejecutan en la nube propia de LMSYS, dijo Lin.

“Las empresas pueden optimizar continuamente sus modelos para alinearse mejor con la distribución de usuarios de LMSYS, lo que posiblemente conduzca a una competencia desigual y una evaluación menos significativa”, agregó. “Los modelos comerciales conectados a través de APIs pueden acceder a todos los datos de entrada del usuario, dándole ventaja a las compañías con más tráfico.”

Cook añadió: “En lugar de fomentar una investigación de IA novedosa o algo así, lo que está haciendo LMSYS es alentar a los desarrolladores a ajustar pequeños detalles para obtener una ventaja en la redacción sobre su competencia.”

LMSYS también está patrocinada en parte por organizaciones, una de las cuales es una firma de capital de riesgo, con caballos en la carrera de la inteligencia artificial.

Patrocinios corporativos de LMSYS.
Créditos de la imagen: LMSYS

La plataforma de ciencia de datos de Google, Kaggle, ha donado dinero a LMSYS, al igual que Andreessen Horowitz (cuyas inversiones incluyen Mistral) y Together AI. Los modelos Gemini de Google están en Chatbot Arena, al igual que los de Mistral y Together.

LMSYS indica en su sitio web que también depende de subvenciones universitarias y donaciones para financiar su infraestructura, y que ninguno de sus patrocinadores —que se presentan en forma de hardware y créditos de cálculo en la nube, además de dinero en efectivo— tienen "ataduras". Pero las relaciones dan la impresión de que LMSYS no es completamente imparcial, especialmente a medida que los proveedores utilizan cada vez más Chatbot Arena para generar expectativas para sus modelos.

LMSYS no respondió a la solicitud de entrevista de TechCrunch.

¿Un mejor benchmark?

Lin piensa que, a pesar de sus defectos, LMSYS y Chatbot Arena ofrecen un servicio valioso: Dar información en tiempo real sobre cómo se desempeñan diferentes modelos fuera del laboratorio.

“Chatbot Arena supera el enfoque tradicional de optimizar para los benchmarks de opción múltiple, que a menudo están saturados y no son directamente aplicables a escenarios del mundo real", dijo Lin. "El benchmark proporciona una plataforma unificada donde los usuarios reales pueden interactuar con varios modelos, ofreciendo una evaluación más dinámica y realista.”

Pero —mientras LMSYS continúa añadiendo características a Chatbot Arena, como evaluaciones más automatizadas— Lin siente que hay frutos bajos que la organización podría abordar para mejorar las pruebas.

Para permitir una comprensión más "sistemática" de las fortalezas y debilidades de los modelos, plantea, LMSYS podría diseñar benchmarks en torno a diferentes subtemas, como álgebra lineal, cada uno con un conjunto de tareas específicas para ese dominio. Eso le daría a los resultados de Chatbot Arena mucho más peso científico, dice.

“Si bien Chatbot Arena puede ofrecer una instantánea de la experiencia del usuario —aunque de una base de usuarios pequeña y potencialmente no representativa— no debería considerarse el estándar definitivo para medir la inteligencia de un modelo", dijo Lin. "En cambio, se ve más apropiadamente como una herramienta para medir la satisfacción del usuario en lugar de una medida científica y objetiva del progreso de la IA.”