OpenAI apresenta novos modelos de áudio para aplicações de voz em tempo real

07/05/2026 locutoredersonedinho23@gmail.com nenhum comentário

Compartilhe essa Informação

Lançamento da API expande as capacidades da OpenAI para além da transcrição e chat.

A OpenAI apresentou, recentemente, três novos modelos de áudio para sua plataforma de desenvolvedores, visando aprimorar a interação de softwares baseados em voz.

Esses modelos têm como objetivo tornar as conversas mais naturais e eficientes, permitindo que os agentes digitais possam ouvir, traduzir e agir em tempo real durante as interações.

Os novos modelos, denominados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, já estão disponíveis para testes no ambiente de desenvolvimento da OpenAI.

O GPT-Realtime-2 é projetado para lidar com solicitações complexas, gerenciar interrupções e manter o contexto em diálogos mais longos, facilitando uma experiência de conversa mais fluida.

O modelo GPT-Realtime-Translate oferece suporte à tradução de mais de 70 idiomas, permitindo a saída em 13 idiomas diferentes, ideal para aplicações em atendimento ao cliente e ambientes educacionais.

Por sua vez, o GPT-Realtime-Whisper proporciona a conversão de fala em texto em tempo real, possibilitando a geração de legendas e notas durante reuniões e apresentações.

Entre as empresas que já estão testando esses novos recursos estão o marketplace imobiliário Zillow, a agência de viagens Priceline e a operadora de telecomunicações Deutsche Telekom.

Os preços para utilização dos novos modelos variam: o GPT-Realtime-2 começa em US$ 32 por milhão de tokens de áudio, enquanto o GPT-Realtime-Translate é cobrado a US$ 0,034 por minuto e o GPT-Realtime-Whisper a US$ 0,017 por minuto.

Além disso, surgem rumores sobre o desenvolvimento de um smartphone pela OpenAI, voltado para integrar o ChatGPT, com previsão de início de produção em massa para 2027.

OpenAI apresenta novos modelos de áudio para aplicações de voz em tempo real

Lançamento da API expande as capacidades da OpenAI para além da transcrição e chat.

Deixe um comentário Cancelar resposta

A voz de nossa cidade, o legado de nossa Gente!

Institucional:

Páginas: