A OpenAI lançou nesta quinta-feira (7) três novos modelos de áudio para sua plataforma de desenvolvedores, ampliando as capacidades de agentes de voz que agora podem transcrever, traduzir e executar tarefas durante diálogos ao vivo.
Novos modelos
Disponíveis para teste no playground da empresa, os modelos são:
• GPT-Realtime-2 – lida com solicitações complexas, invoca ferramentas externas, suporta interrupções e mantém o contexto em conversas longas;
• GPT-Realtime-Translate – traduz mais de 70 idiomas para 13 línguas de saída, voltado a aplicações como suporte ao cliente e educação;
• GPT-Realtime-Whisper – converte fala em texto em tempo real, possibilitando geração automática de legendas, atas de reunião e atualizações de fluxo de trabalho.
Preço e primeiros usuários
O GPT-Realtime-2 custa a partir de US$ 32 (R$ 158,26) por milhão de tokens de entrada de áudio. Já o GPT-Realtime-Translate é tarifado em US$ 0,034 (R$ 0,17) por minuto, enquanto o GPT-Realtime-Whisper sai por US$ 0,017 (R$ 0,084) por minuto.
Imagem: Primakov
Entre as empresas que testam os recursos estão o marketplace imobiliário Zillow, a agência de viagens Priceline e a operadora europeia Deutsche Telekom.
Possível hardware em desenvolvimento
Além dos novos modelos, o analista Ming-Chi Kuo afirmou que a OpenAI pode estar acelerando o projeto de seu primeiro dispositivo físico: um smartphone voltado ao ChatGPT, com início de produção em massa previsto para o começo de 2027.
As novidades reforçam a estratégia da companhia de levar sua tecnologia de inteligência artificial para experiências de voz mais naturais e funcionais.
Com informações de Olhar Digital
