
OpenAI está trayendo nuevos modelos de inteligencia artificial para transcripción y generación de voz a su API que la compañía afirma mejorar sus versiones anteriores.
Para OpenAI, los modelos encajan en su visión más amplia "agente": construir sistemas automatizados que puedan llevar a cabo tareas de forma independiente en nombre de los usuarios. La definición de "agente" podría estar en disputa, pero el Jefe de Producto de OpenAI, Olivier Godement, describió una interpretación como un chatbot que puede hablar con los clientes de una empresa.
"Vamos a ver más y más agentes aparecer en los próximos meses", dijo Godement a TechCrunch durante una sesión informativa. "Y por lo tanto, el tema general es ayudar a los clientes y desarrolladores a aprovechar agentes que son útiles, disponibles y precisos."
OpenAI afirma que su nuevo modelo de texto a voz, "gpt-4o-mini-tts", no solo ofrece un habla más matizada y realista, sino que también es más "manejable" que sus modelos anteriores de síntesis del habla. Los desarrolladores pueden instruir a gpt-4o-mini-tts sobre cómo decir las cosas en lenguaje natural, por ejemplo, "hablar como un científico loco" o "usar una voz serena, como un profesor de mindfulness".
Aquí hay una voz estilo "crimen real":
Y aquí hay una muestra de una voz "profesional" femenina:
Jeff Harris, un miembro del equipo de producto de OpenAI, dijo a TechCrunch que el objetivo es permitir a los desarrolladores personalizar tanto la "experiencia" de voz como el "contexto".
"En diferentes contextos, no solo quieres una voz plana y monótona", dijo Harris. "Si estás en una experiencia de soporte al cliente y quieres que la voz se disculpe porque ha cometido un error, realmente puedes hacer que la voz tenga esa emoción... Nuestra gran creencia aquí es que los desarrolladores y usuarios quieren controlar realmente no solo lo que se dice, sino cómo se dicen las cosas."
En cuanto a los nuevos modelos de transcripción de voz a texto de OpenAI, "gpt-4o-transcribe" y "gpt-4o-mini-transcribe", reemplazan efectivamente al antiguo modelo de transcripción Whisper de la compañía. Entrenados en "conjuntos de datos de audio diversos y de alta calidad", los nuevos modelos pueden capturar mejor el habla con acento y variada, según afirma OpenAI, incluso en entornos caóticos.
También tienen menos probabilidad de alucinar, agregó Harris. Whisper tenía la tendencia de fabricar palabras, e incluso pasajes completos, en conversaciones, introduciendo todo, desde comentarios raciales hasta tratamientos médicos imaginarios, en las transcripciones.
"[E]stos modelos están significativamente mejorados en comparación con Whisper en ese sentido", dijo Harris. "Asegurarse de que los modelos sean precisos es completamente esencial para obtener una experiencia de voz fiable, y preciso en este contexto significa que los modelos escuchan las palabras con precisión y no están agregando detalles que no escucharon."
La precisión puede variar dependiendo del idioma que se esté transcribiendo, sin embargo.
Según las pruebas internas de OpenAI, gpt-4o-transcribe, el modelo de transcripción más preciso de los dos, tiene una "tasa de error de palabras" que se acerca al 30% (de un total del 120%) para idiomas indios y dravídicos como Tamil, Telugu, Malayalam y Kannada. Eso significa que tres de cada diez palabras del modelo diferirán de una transcripción humana en esos idiomas.

En un cambio respecto a la tradición, OpenAI no tiene planeado hacer sus nuevos modelos de transcripción públicamente disponibles. Históricamente, la compañía lanzaba nuevas versiones de Whisper para uso comercial bajo una licencia MIT.
Harris dijo que gpt-4o-transcribe y gpt-4o-mini-transcribe son "muchos más grandes que Whisper" y por lo tanto no son buenos candidatos para un lanzamiento público.
"[E]stos no son el tipo de modelo que puedes ejecutar localmente en tu computadora portátil, como Whisper", continuó. "[Q]ueremos asegurarnos de que si estamos lanzando cosas de código abierto, lo estamos haciendo de manera reflexiva, y tenemos un modelo que esté realmente preparado para esa necesidad específica. Y creemos que los dispositivos de usuario final son uno de los casos más interesantes para los modelos de código abierto."
Actualizado el 20 de marzo de 2025, 11:54 a.m. PT para aclarar el lenguaje en torno a la tasa de error de palabras y actualizar el gráfico de resultados de las pruebas con una versión más reciente.