Como a OpenAI entrega IA de voz de baixa latência em escala
A OpenAI redesenhou sua infraestrutura WebRTC para escalar IA de voz em tempo real, separando o roteamento de pacotes da terminação de protocolo. Isso foi feito através de uma camada de relay leve que encaminha o tráfego para serviços de transceiver com estado, usando metadados de roteamento embutidos em fragmentos de username ICE. O novo design dividido de relay-mais-transceiver resultou na redução da superfície UDP pública para um número fixo de portas (em vez de uma por sessão). Além disso, permitiu a implantação em Kubernetes e a criação de pontos de ingress de relay globais, que diminuíram a latência de primeiro salto ao permitir que os pacotes entrem na rede da OpenAI mais próximos dos usuários.
- Categoria
- CEVIU DevOps
- Publicado
- 06 de maio de 2026
- Fonte
- CEVIU DevOps
