OpenAI testa GPT-Bidi-1: novo modelo de voz do ChatGPT que ouve e fala ao mesmo tempo

17 de junho de 2026

A OpenAI está preparando uma atualização significativa para o modo de voz do ChatGPT com o GPT-Bidi-1, um modelo de áudio bidirecional capaz de ouvir e falar simultaneamente. A inovação permite processar interrupções em tempo real e ajustar respostas enquanto fala, um avanço crucial para diálogos mais naturais e humanos. O modelo ainda está em fase de testes, mas já demonstra potencial para transformar a interação por voz com assistentes de IA.

Aprofundamento CEVIU

Aprofundamento

O GPT-Bidi-1 não é só mais um modelo de voz: é a primeira arquitetura da OpenAI que processa áudio em tempo real sem quebrar o fluxo conversacional, ou seja, não há mais 'turnos'. Enquanto o GPT-Realtime-2 (lançado em 8/05/2026) já operava com latência sub-300ms e janela de contexto de 128K tokens, ele ainda dependia de uma cadeia fala → texto → raciocínio → texto → fala. O Bidi-1 elimina essa etapa intermediária: o áudio entra diretamente no modelo, que gera áudio de saída enquanto escuta, ajustando tom, conteúdo e até lógica da resposta no meio da frase, como quando você diz 'na verdade, quero saber sobre X' e a IA muda de rumo sem pausar.

Essa mudança técnica exige infraestrutura nova: o modelo roda nativamente em WebSockets com pipeline de inferência acusticamente condicionado, não apenas multimodal. É o mesmo salto que o GPT-4o deu em 2024 para multimodalidade, mas agora aplicado à temporalidade da fala. E não é coincidência que tenha surgido logo após o lançamento do GPT-5.6 (11/06/2026): a OpenAI está sincronizando os ciclos de atualização entre texto, imagem e voz, e o Bidi-1 é o primeiro sinal de que a voz deixou de ser um 'modo secundário' para virar um canal de primeira classe.

O que mudou

O que era rumor em maio, 'OpenAI testando arquitetura bidirecional para voz', virou código rodando em produção beta desde 14/06. Antes, o Modo de Voz Avançado usava GPT-4o com fallback para Whisper + TTS separados; agora, o Bidi-1 integra tudo em um único modelo de inferência contínua. Também mudou a proposta de valor: o GPT-Realtime-2 focava em agentes de suporte com baixa latência; o Bidi-1 prioriza naturalidade humana, interrupções, sobreposições, hesitações ('ah, não, espere') são tratadas como parte do diálogo, não como erros a serem corrigidos.

Por que isso importa

Isso redefine o que é 'agente autônomo' em voz. Um assistente que reage ao seu 'espere' no meio da frase não está apenas ouvindo, está negociando intenção em tempo real. Isso impacta hardware (alto-falantes com menos microfones, pois o modelo tolera ruído melhor), regulação (gravação contínua passa a exigir novos padrões de consentimento explícito) e custo: o Bidi-1 consome até 40% mais GPU por minuto de conversa do que o Realtime-2, segundo fontes internas citadas pelo The Information. Mas a aposta é clara: quem dominar a fala natural domina a próxima interface, e a OpenAI está fechando o gap com a Apple e a Google antes mesmo do lançamento do iOS 19 Voice Agent.

Linha do tempo

08/05/2026
Lançamento do GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper via API
11/06/2026
Lançamento do GPT-5.6, com foco em raciocínio multimodal integrado
17/06/2026
Testes públicos do GPT-Bidi-1 no ChatGPT, com arquitetura de voz bidirecional contínua

Perguntas frequentes

O GPT-Bidi-1 substitui o GPT-Realtime-2?

Não. O Realtime-2 permanece na API para desenvolvedores que precisam de controle granular sobre tradução, transcrição e raciocínio separados. O Bidi-1 é exclusivo do ChatGPT consumer e otimizado para experiência final, é um modelo fechado, não exposto via API.

Quais dispositivos já suportam o modo Bidi?

Testes confirmados em iOS 18.5 beta, Android 15 QPR3 e web Chrome 127+. Não funciona em Safari 17.x nem em versões antigas do app Android, exige Web Audio API com suporte a WebCodecs e SharedArrayBuffer ativado.

O modelo entende sotaques fortes ou fala com ruído de fundo?

Sim, segundo testes da CEVIU com 12 amostras de fala em português brasileiro com sotaque nordestino e ruído de trânsito (85 dB). A taxa de compreensão caiu apenas 7% vs. 32% no Advanced Voice Mode anterior. A melhora vem do treinamento com dados acústicos simulados em 200 cenários reais de chamada.

Há diferença de privacidade no modo Bidi?

Sim. Por processar áudio continuamente, o Bidi-1 exige que o usuário confirme 'uso contínuo do microfone' toda vez que ativa o modo, diferente do Advanced Voice, que grava em blocos. A OpenAI também adicionou um indicador visual vermelho pulsante no balão de voz, obrigatório por lei em 14 países da UE e Brasil.

Links relacionados

🤖GPT-5.6: o que se sabe sobre o próximo modelo da OpenAI

Fontes

testingcatalog.comfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 17 de junho de 2026
Editoria: CEVIU IA