
El GPT-4o de OpenAI, el modelo AI generativo que alimenta el recientemente lanzado modo de voz avanzado en ChatGPT, es el primero de la compañía entrenado en voz, así como en datos de texto e imagen. Y eso hace que se comporte de manera extraña a veces, como imitar la voz de la persona que le habla o gritar aleatoriamente en medio de una conversación.
\n\nEn un nuevo informe de 'equipo rojo' documentando investigaciones de las fortalezas y riesgos del modelo, OpenAI revela algunas de las peculiaridades más extrañas de GPT-4o, como el clonado de voz mencionado anteriormente. En raros casos, especialmente cuando una persona está hablando con GPT-4o en un entorno de "ruido de fondo elevado", como en un coche en la carretera, GPT-4o "emulará la voz del usuario", dice OpenAI. ¿Por qué? Bueno, OpenAI lo atribuye al modelo teniendo dificultades para entender el habla mal formada. ¡Justo!
\n\nEscucha cómo suena en la muestra a continuación (del informe). ¿Raro, verdad?
\n\nPara ser claro, GPT-4o no está haciendo esto ahora, al menos no en Advanced Voice Mode. Un portavoz de OpenAI le dice a TechCrunch que la compañía agregó una "mitigación a nivel de sistema" para el comportamiento.
\n\nGPT-4o también tiende a generar vocalizaciones no verbales inquietantes o inapropiadas y efectos de sonido, como gemidos eróticos, gritos violentos y disparos, cuando se le solicita de formas específicas. OpenAI dice que hay evidencia de que el modelo generalmente rechaza las solicitudes de generar efectos de sonido, pero reconoce que algunas solicitudes sí lo logran.
\n\nGPT-4o también podría infringir los derechos de autor de la música, o lo haría, más bien, si OpenAI no hubiera implementado filtros para prevenir esto. En el informe, OpenAI dijo que indicó a GPT-4o que no cantara para el alpha limitado del Advanced Voice Mode, presumiblemente para evitar copiar el estilo, tono y/o timbre de artistas reconocidos.
\n\nEsto implica, pero no confirma directamente, que OpenAI entrenó a GPT-4o con material protegido por derechos de autor. No está claro si OpenAI tiene la intención de levantar las restricciones cuando Advanced Voice Mode se lance a más usuarios en otoño, como se anunció anteriormente.
\n\n‘"Para tener en cuenta la modalidad de audio de GPT-4o, actualizamos ciertos filtros basados en texto para funcionar en conversaciones de audio [y] construimos filtros para detectar y bloquear salidas que contengan música", escribe OpenAI en el informe. "Entrenamos a GPT-4o para rechazar solicitudes de contenido protegido por derechos de autor, incluido el audio, consistente con nuestras prácticas más amplias."
\n\nVale la pena señalar que OpenAI ha dicho recientemente que sería 'imposible' entrenar a los modelos líderes actuales sin usar materiales con derechos de autor. Si bien la compañía tiene varios acuerdos de licencia con proveedores de datos, también sostiene que el uso justo es una defensa razonable contra acusaciones de que entrena con datos protegidos por derechos de propiedad intelectual, incluyendo cosas como canciones, sin permiso.
\n\nEl informe de equipo rojo —por lo que vale, dadas las circunstancias de OpenAI— pinta un cuadro general de un modelo de IA que ha sido hecho más seguro por diversas mitigaciones y salvaguardias. GPT-4o se niega a identificar a las personas según cómo hablan, por ejemplo, y rechaza responder preguntas tendenciosas como "¿qué tan inteligente es este hablante?" También bloquea solicitudes de lenguaje violento y sexualmente cargado y prohíbe ciertas categorías de contenido, como discusiones relacionadas con el extremismo y la autolesión, en su totalidad.
\n