CEVIU Logo
Voltar
Como criar agentes de voz em tempo real no AI Gateway
🎙️CEVIU IA

Como criar agentes de voz em tempo real no AI Gateway

Aprofundamento CEVIU

Aprofundamento

O Vercel AI Gateway agora suporta áudio nativamente em modo tempo real, não como uma cadeia de STT + LLM + TTS, mas com modelos que processam voz de entrada e geram voz de saída diretamente, como os modelos xai/grok-voice-think-fast-1.0 e openai/realtime. Essa funcionalidade está disponível desde a versão beta do AI SDK 7, com suporte completo para streaming, interrupção (barge-in), detecção de fala no servidor (server-VAD) e chamadas de ferramentas no meio da conversação. Para usar, desenvolvedores instalam as versões canary do SDK (@ai-sdk/gateway@canary, @ai-sdk/react@canary) e integram o hook useRealtime no navegador, que gerencia microfone, WebSocket autenticado via token de curta duração e reprodução de áudio sem expor chaves de API.

A arquitetura Speech-to-Speech end-to-end reduz latência e preserva nuances vocais, mas ainda é limitada a poucos modelos confirmados: openai/realtime e xai/grok-voice-think-fast-1.0, ambos listados na página de modelos do AI Gateway. A alternativa STT > LLM > TTS continua mais flexível e amplamente adotada, usando serviços como Gladia ou Whisper para transcrição e LMNT ou ElevenLabs para síntese, e também roda pelo mesmo gateway, com observabilidade unificada, controle de gasto e roteamento entre provedores.

Por que isso importa

Isso elimina a necessidade de orquestrar múltiplas APIs, gerenciar estados de sessão manualmente ou lidar com sincronização entre STT, LLM e TTS. O AI Gateway centraliza tudo: um único endpoint, uma única chave de acesso, orçamentos por ambiente, fallback automático entre provedores e logs detalhados de cada requisição de áudio, igual ao que já existe para texto e imagens. A autenticação é feita com tokens OIDC quando implantado no Vercel, e o SDK já tem mais de 15,8 milhões de downloads semanais, o que indica adoção massiva e maturidade operacional.

Os novos componentes AI Elements, lançados em janeiro de 2026, incluem VoiceSelector, SpeechInput e AudioPlayer, prontos para uso com TypeScript e Next.js. Guia atualizado de início rápido para recursos em tempo real foi publicado em 20 de junho de 2026, confirmando que a documentação e exemplos estão ativos e mantidos.

Impacto para desenvolvedores

Desenvolvedores podem construir agentes de voz com menos de 50 linhas de TypeScript, integrando OpenAI, Gladia e LMNT em um único fluxo controlado pelo AI SDK. Não há necessidade de servidores dedicados para WebSockets ou pipelines de áudio: o useRealtime lida com captura, stream e playback no navegador; fora dele, o SDK fornece getWebSocketConfig, serializeClientEvent e parseServerEvent para controle total em back-ends ou dispositivos embarcados. A detecção de fala no servidor (turnDetection: { type: 'server-vad' }) permite interrupções naturais, o usuário fala por cima da resposta, sem esperar silêncio.

O modelo openai/realtime é o único com documentação pública detalhada no GitHub da Vercel e suporte direto no playground do AI Gateway. Já o xai/grok-voice-think-fast-1.0 aparece listado como suportado, mas sem exemplos oficiais ou benchmarks públicos até hoje, sua disponibilidade é confirmada apenas pela presença na interface do gateway e em releases do SDK.

Perguntas frequentes

Como criar um agente de voz em tempo real com o AI Gateway?

Instale as versões canary do AI SDK (@ai-sdk/gateway@canary e @ai-sdk/react@canary), use o hook useRealtime no frontend para gerenciar microfone e playback, e gere um token de curta duração no backend para autenticação. Os modelos suportados incluem openai/realtime e xai/grok-voice-think-fast-1.0. Exemplos completos estão na documentação atualizada em 20 de junho de 2026.

Qual é a diferença entre STT > LLM > TTS e Speech-to-Speech no AI Gateway?

A arquitetura STT > LLM > TTS usa três etapas separadas com modelos distintos (ex.: Gladia + OpenAI GPT + LMNT). Já Speech-to-Speech é end-to-end: um único modelo, como openai/realtime, recebe áudio e responde com áudio diretamente. O AI Gateway roteia ambas as abordagens pelo mesmo endpoint, com mesma observabilidade e controle de gasto.

O que é o openai/realtime e onde ele está documentado?

É um modelo de voz em tempo real da OpenAI, suportado nativamente no AI Gateway desde a versão beta do AI SDK 7. Está documentado no repositório oficial do Vercel AI SDK no GitHub, com exemplos de uso do hook useRealtime, referência de eventos e guias de início rápido atualizados em 20 de junho de 2026.

O xai/grok-voice-think-fast-1.0 já está disponível para uso público?

Sim, o modelo xai/grok-voice-think-fast-1.0 aparece listado como suportado na interface do AI Gateway e nas releases do AI SDK 7. No entanto, não há exemplos oficiais, benchmarks ou documentação detalhada publicada pela Vercel ou xAI até 29 de junho de 2026, sua disponibilidade é confirmada apenas pela integração técnica no gateway.

Fontes

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
29 de junho de 2026
Editoria
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser