OpenAI apresenta novos modelos de áudio para aplicações de voz em tempo real
Lançamento da API expande as capacidades da OpenAI para além da transcrição e chat.
A OpenAI apresentou, recentemente, três novos modelos de áudio para sua plataforma de desenvolvedores, visando aprimorar a interação de softwares baseados em voz.
Esses modelos têm como objetivo tornar as conversas mais naturais e eficientes, permitindo que os agentes digitais possam ouvir, traduzir e agir em tempo real durante as interações.
Os novos modelos, denominados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, já estão disponíveis para testes no ambiente de desenvolvimento da OpenAI.
O GPT-Realtime-2 é projetado para lidar com solicitações complexas, gerenciar interrupções e manter o contexto em diálogos mais longos, facilitando uma experiência de conversa mais fluida.
O modelo GPT-Realtime-Translate oferece suporte à tradução de mais de 70 idiomas, permitindo a saída em 13 idiomas diferentes, ideal para aplicações em atendimento ao cliente e ambientes educacionais.
Por sua vez, o GPT-Realtime-Whisper proporciona a conversão de fala em texto em tempo real, possibilitando a geração de legendas e notas durante reuniões e apresentações.
Entre as empresas que já estão testando esses novos recursos estão o marketplace imobiliário Zillow, a agência de viagens Priceline e a operadora de telecomunicações Deutsche Telekom.
Os preços para utilização dos novos modelos variam: o GPT-Realtime-2 começa em US$ 32 por milhão de tokens de áudio, enquanto o GPT-Realtime-Translate é cobrado a US$ 0,034 por minuto e o GPT-Realtime-Whisper a US$ 0,017 por minuto.
Além disso, surgem rumores sobre o desenvolvimento de um smartphone pela OpenAI, voltado para integrar o ChatGPT, com previsão de início de produção em massa para 2027.
