','

'); } ?>

OpenAI apresenta três modelos de áudio para conversas em tempo real

A OpenAI lançou nesta quinta-feira (7) três novos modelos de áudio para sua plataforma de desenvolvedores, ampliando as capacidades de agentes de voz que agora podem transcrever, traduzir e executar tarefas durante diálogos ao vivo.

Novos modelos

Disponíveis para teste no playground da empresa, os modelos são:

• GPT-Realtime-2 – lida com solicitações complexas, invoca ferramentas externas, suporta interrupções e mantém o contexto em conversas longas;

• GPT-Realtime-Translate – traduz mais de 70 idiomas para 13 línguas de saída, voltado a aplicações como suporte ao cliente e educação;

• GPT-Realtime-Whisper – converte fala em texto em tempo real, possibilitando geração automática de legendas, atas de reunião e atualizações de fluxo de trabalho.

Preço e primeiros usuários

O GPT-Realtime-2 custa a partir de US$ 32 (R$ 158,26) por milhão de tokens de entrada de áudio. Já o GPT-Realtime-Translate é tarifado em US$ 0,034 (R$ 0,17) por minuto, enquanto o GPT-Realtime-Whisper sai por US$ 0,017 (R$ 0,084) por minuto.

OpenAI apresenta três modelos de áudio para conversas em tempo real - Imagem do artigo original

Imagem: Primakov

Entre as empresas que testam os recursos estão o marketplace imobiliário Zillow, a agência de viagens Priceline e a operadora europeia Deutsche Telekom.

Possível hardware em desenvolvimento

Além dos novos modelos, o analista Ming-Chi Kuo afirmou que a OpenAI pode estar acelerando o projeto de seu primeiro dispositivo físico: um smartphone voltado ao ChatGPT, com início de produção em massa previsto para o começo de 2027.

As novidades reforçam a estratégia da companhia de levar sua tecnologia de inteligência artificial para experiências de voz mais naturais e funcionais.

Com informações de Olhar Digital

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *