Los nuevos modelos de IA de razonamiento de OpenAI alucinan más

Los modelos de IA o3 y o4-mini recientemente lanzados por OpenAI son de última generación en muchos aspectos. Sin embargo, los nuevos modelos todavía alucinan, o inventan cosas, de hecho, alucinan más que varios de los modelos anteriores de OpenAI.

Las alucinaciones han demostrado ser uno de los problemas más grandes y difíciles de resolver en IA, afectando incluso a los sistemas de mejor rendimiento de hoy. Históricamente, cada nuevo modelo ha mejorado ligeramente en el departamento de alucinaciones, alucinando menos que su predecesor. Pero parece que ese no es el caso para o3 y o4-mini.

Según las pruebas internas de OpenAI, o3 y o4-mini, que son modelos de razonamiento, alucinan con más frecuencia que los modelos de razonamiento anteriores de la empresa, como o1, o1-mini y o3-mini, así como los modelos tradicionales de OpenAI, como GPT-4o.

Quizás lo más preocupante es que el fabricante de ChatGPT realmente no sabe por qué está sucediendo. En su informe técnico para o3 y o4-mini, OpenAI escribe que 'se necesita más investigación' para comprender por qué las alucinaciones empeoran a medida que se escalan los modelos de razonamiento. O3 y o4-mini se desempeñan mejor en algunas áreas, incluidas las tareas relacionadas con la codificación y las matemáticas. Pero debido a que 'hacen más afirmaciones en general', a menudo se ven obligados a hacer 'más afirmaciones precisas y también más afirmaciones inexactas/alucinadas', según el informe.

OpenAI descubrió que o3 alucinaba en respuesta al 33% de las preguntas en PersonQA, la referencia interna de la empresa para medir la precisión del conocimiento de un modelo sobre las personas. Eso es aproximadamente el doble de la tasa de alucinación de los modelos de razonamiento anteriores de OpenAI, o1 y o3-mini, que obtuvieron un 16% y un 14,8%, respectivamente. O4-mini lo hizo aún peor en PersonQA, alucinando el 48% del tiempo.

Las pruebas de terceros realizadas por Transluce, un laboratorio de investigación de IA sin ánimo de lucro, también encontraron evidencia de que o3 tiende a inventar acciones que tomó en el proceso de llegar a las respuestas. En un ejemplo, Transluce observó que o3 afirmaba que ejecutó código en un MacBook Pro de 2021 'fuera de ChatGPT', y luego copió los números en su respuesta. Si bien o3 tiene acceso a algunas herramientas, no puede hacer eso.

'Nuestra hipótesis es que el tipo de aprendizaje por refuerzo utilizado para los modelos de la serie o puede amplificar problemas que generalmente se mitigan (pero no se eliminan por completo) mediante pipelines de entrenamiento estándar', dijo Neil Chowdhury, investigador de Transluce y ex empleado de OpenAI, en un correo electrónico a TechCrunch.

Sarah Schwettmann, cofundadora de Transluce, agregó que la tasa de alucinación de o3 puede hacerlo menos útil de lo que sería de otra manera.

Kian Katanforoosh, profesor adjunto de Stanford y CEO de la startup de mejora de habilidades Workera, le dijo a TechCrunch que su equipo ya está probando o3 en sus flujos de trabajo de codificación, y que han descubierto que es un paso por encima de la competencia. Sin embargo, Katanforoosh dice que o3 tiende a alucinar enlaces rotos de sitios web. El modelo proporcionará un enlace que, al hacer clic, no funciona.

Las alucinaciones pueden ayudar a los modelos a llegar a ideas interesantes y ser creativos en su 'pensamiento', pero también hacen que algunos modelos sean difíciles de vender para empresas en mercados donde la precisión es fundamental. Por ejemplo, es probable que un bufete de abogados no esté satisfecho con un modelo que inserta muchos errores de hecho en los contratos de los clientes.

Un enfoque prometedor para aumentar la precisión de los modelos es darles capacidades de búsqueda web. El GPT-4o de OpenAI con búsqueda web logra una precisión del 90% en SimpleQA, otro de los puntos de referencia de precisión de OpenAI. Potencialmente, la búsqueda podría mejorar las tasas de alucinación de los modelos de razonamiento, al menos en casos en los que los usuarios estén dispuestos a exponer indicaciones a un proveedor de búsqueda de terceros.

Si efectivamente continuar escalando los modelos de razonamiento empeora las alucinaciones, hará que la búsqueda de una solución sea aún más urgente.

'Abordar las alucinaciones en todos nuestros modelos es un área de investigación en curso, y estamos trabajando continuamente para mejorar su precisión y confiabilidad', dijo Niko Felix, portavoz de OpenAI, en un correo electrónico a TechCrunch.

En el último año, la industria de la IA en general ha cambiado su enfoque para centrarse en los modelos de razonamiento después de que las técnicas para mejorar los modelos tradicionales de IA comenzaran a mostrar rendimientos decrecientes. El razonamiento mejora el rendimiento del modelo en una variedad de tareas sin requerir grandes cantidades de cómputo y datos durante el entrenamiento. Sin embargo, parece que el razonamiento también puede llevar a más alucinaciones, lo que presenta un desafío.