OpenAI apresenta novos modelos de áudio para aplicações de voz em tempo real

Compartilhe essa Informação

Lançamento da API expande as capacidades da OpenAI para além da transcrição e chat.

A OpenAI apresentou, recentemente, três novos modelos de áudio para sua plataforma de desenvolvedores, visando aprimorar a interação de softwares baseados em voz.

Esses modelos têm como objetivo tornar as conversas mais naturais e eficientes, permitindo que os agentes digitais possam ouvir, traduzir e agir em tempo real durante as interações.

Os novos modelos, denominados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, já estão disponíveis para testes no ambiente de desenvolvimento da OpenAI.

O GPT-Realtime-2 é projetado para lidar com solicitações complexas, gerenciar interrupções e manter o contexto em diálogos mais longos, facilitando uma experiência de conversa mais fluida.

O modelo GPT-Realtime-Translate oferece suporte à tradução de mais de 70 idiomas, permitindo a saída em 13 idiomas diferentes, ideal para aplicações em atendimento ao cliente e ambientes educacionais.

Por sua vez, o GPT-Realtime-Whisper proporciona a conversão de fala em texto em tempo real, possibilitando a geração de legendas e notas durante reuniões e apresentações.

Entre as empresas que já estão testando esses novos recursos estão o marketplace imobiliário Zillow, a agência de viagens Priceline e a operadora de telecomunicações Deutsche Telekom.

Os preços para utilização dos novos modelos variam: o GPT-Realtime-2 começa em US$ 32 por milhão de tokens de áudio, enquanto o GPT-Realtime-Translate é cobrado a US$ 0,034 por minuto e o GPT-Realtime-Whisper a US$ 0,017 por minuto.

Além disso, surgem rumores sobre o desenvolvimento de um smartphone pela OpenAI, voltado para integrar o ChatGPT, com previsão de início de produção em massa para 2027.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *