Google añade su modelo de voz Chirp 3 a su plataforma de inteligencia artificial Vertex AI

La mayor parte del enfoque en la inteligencia artificial generativa se ha centrado en interfaces basadas en texto utilizadas para generar texto, imágenes y más. La próxima ola parece ser la voz, y está avanzando rápidamente. En el último desarrollo, Google anunció hoy que agregaría Chirp 3 - sus modelos de conversión de voz a texto y de texto a voz en HD - a su plataforma de desarrollo de inteligencia artificial Vertex AI a partir de la próxima semana.

La semana pasada, Google anunció silenciosamente que Chirp 3 lanzaría 8 nuevas voces para 31 idiomas. Los casos de uso de la plataforma incluyen la construcción de asistentes de voz, la creación de audiolibros, el desarrollo de agentes de soporte y locutores para videos. La noticia fue anunciada en un evento en las oficinas de DeepMind de Google en Londres.

Sus esfuerzos llegan al mismo tiempo que otros también avanzan con su trabajo en inteligencia artificial de voz. La semana pasada, Sesame, la startup detrás de las aplicaciones AI virales y muy realistas "Maya" y "Miles", anunció el lanzamiento de su modelo para que los desarrolladores construyan sus propias aplicaciones y servicios personalizados sobre su tecnología.

Se impondrán restricciones de uso en torno a Chirp 3 para tratar de controlar el mal uso. "Estamos trabajando en algunas de estas cosas con nuestro equipo de seguridad", dijo Thomas Kurian, CEO de Google Cloud, en un evento de noticias hoy.

ElevenLabs es una de las principales startups que han recaudado cientos de millones en financiación para expandir su trabajo en servicios de voz de inteligencia artificial.

La noticia llevará a Chirp 3 al mismo nivel que las versiones más recientes de su buque insignia LLM, Gemini, que se están probando, así como su modelo de generación de imágenes Imagen y su costosa herramienta de generación de video Veo 2.

Aún está por confirmar si lo que Google está lanzando con Chirp 3 será tan "realista" como algunos de los otros esfuerzos de IA para crear voces "humanas" (el trabajo de Sesame se destaca en particular). Pero, como enfatizó Demis Hassabis, CEO de DeepMind, esto sigue siendo una maratón, no una carrera corta.

“A corto plazo... esta idea de que [la IA es] la solución a todo en los próximos años, todavía no veo que eso suceda. Creo que todavía estamos bastante lejos de que algo como AGI suceda”, dijo. “Esto va a cambiar las cosas... en la próxima década, por lo que a medio y largo plazo. Es uno de esos momentos interesantes en el tiempo.”

Google lanzó Vertex AI en 2021 como una plataforma para que los desarrolladores construyan servicios de aprendizaje automático en la nube. Eso fue, por supuesto, mucho antes de la explosión de interés en la IA, y específicamente en la IA generativa, que llegó con el lanzamiento de los servicios GPT de OpenAI.

Desde entonces, la empresa se ha inclinado hacia Vertex AI en parte mientras intenta ponerse al día con otras empresas como Microsoft y Amazon, que también están construyendo herramientas de IA generativa para desarrolladores. Además de construir IA generativa sobre Gemini, los desarrolladores pueden usar Vertex AI para clasificar datos, entrenar modelos y configurar modelos para producción. Será interesante ver si se expandirá su jardín amurallado a modelos más allá de los creados por Google.

Google ha estado construyendo servicios de voz "Chirp" durante años, remontándose al uso del nombre como nombre en clave para sus primeros esfuerzos para competir contra el servicio de Alexa de Amazon.