Como a OpenAI entrega IA de voz de baixa latência em escala

06 de maio de 2026

A OpenAI redesenhou sua infraestrutura WebRTC para escalar IA de voz em tempo real, separando o roteamento de pacotes da terminação de protocolo. Isso foi feito através de uma camada de relay leve que encaminha o tráfego para serviços de transceiver com estado, usando metadados de roteamento embutidos em fragmentos de username ICE. O novo design dividido de relay-mais-transceiver resultou na redução da superfície UDP pública para um número fixo de portas (em vez de uma por sessão). Além disso, permitiu a implantação em Kubernetes e a criação de pontos de ingress de relay globais, que diminuíram a latência de primeiro salto ao permitir que os pacotes entrem na rede da OpenAI mais próximos dos usuários.

Avalie este artigo:

Categoria: CEVIU DevOps
Publicado: 06 de maio de 2026
Fonte: CEVIU DevOps

Quer receber mais sobre CEVIU DevOps?