Arquitetura cloud native como espinha dorsal de agentes de IA em segurança: lições da Orange Innovation
Aprofundamento CEVIU
Aprofundamento
A Orange Innovation não está apenas rodando LLMs em Kubernetes: ela construiu uma arquitetura de segurança operacional para agentes que se comportam como entidades computacionais autônomas, com identidade SPIFFE, ciclo de vida isolado via Job, e rede protegida por Cilium mTLS. Isso vai além do que o Kubescape 4.0 faz (detecção pós-implantação): aqui, cada agente é um workload com política de admissão (Kyverno), autorização just-in-time (via Boundary + Vault), e restrições de sistema operacional via Landlock, exatamente como previsto no Openshell da NVIDIA, mas aplicado em escala produtiva.
O Kafka não é só pipeline: ele atua como camada de reprodução determinística para depurar decisões de agentes. Quando um LLM ‘alucina’ ao interpretar um evento de Falco, a equipe reexecuta o fluxo completo a partir do tópico original, sem dependência de logs ou estado volátil. E o A2A não é abstração: é implementado com gRPC over mTLS entre pods, orquestrado por um control plane customizado que respeita os limites de DRA do Kubernetes 1.35, garantindo que GPU e memória sejam alocadas sob demanda, não por reserva estática.
O que mudou
Em março, a CEVIU destacou a transição para 'padrões nativos de Kubernetes para IA' como conceito. Em junho, a Orange entrega isso em produção: não mais containers com modelos, mas Jobs com políticas Kyverno v1 (CEL estável), Falco Operator 0.2.0 em GA, e Cilium 1.19 com firewall de host ativado para tráfego VRRP entre agentes. O que era teoria em abril sobre governança externa agora é prática, com Mattermost como gate humano e OPA validando credenciais assinadas por supervisor antes de qualquer chamada a ferramenta empresarial.
Por que isso importa
Agentes de IA não são APIs: são processos que podem pivotar, persistir e escalar acesso sozinhos. Um contêiner comprometido com um LLM pode explorar falhas de kernel, roubar credenciais do Vault e executar comandos em outros clusters, tudo em segundos. A arquitetura da Orange mostra que segurança de IA agentic exige três coisas juntas: isolamento de runtime (Falco + eBPF), controle de rede granular (Cilium + mTLS) e autorização estruturada (OPA/Kyverno), não apenas prompt engineering. Isso muda o jogo para equipes de SRE e DevSecOps: agora elas gerenciam agentes como infraestrutura crítica, não como cargas de trabalho experimentais.
Linha do tempo
Lançamento do Kubescape 4.0 com foco em detecção de ameaças em tempo real para IA
Publicação sobre governança de IA agentic com Zero Trust e SPIFFE
Detalhamento do Openshell para restrição de filesystem e rede em agentes
Abordagem da Salesforce para governança unificada de identidade, dados e APIs em plataformas de agentes
Implementação do HashiCorp Boundary para acesso just-in-time à infraestrutura de IA
Orange Innovation publica arquitetura cloud native para agentes de IA em segurança com A2A, Falco, Cilium e Kafka
Perguntas frequentes
Por que usar Falco + eBPF em vez de apenas scanners de código-fonte?
Falco monitora chamadas de sistema em tempo real, capturando comportamentos anômalos mesmo quando o agente já está em execução, como um LLM tentando ler /proc/self/environ ou chamar curl fora do permitido. Scanners de código-fonte não veem isso. A nova funcionalidade Prempti do Falco, lançada em maio, foi feita especificamente para detectar padrões de uso indevido por agentes de codificação.
Como o protocolo A2A funciona dentro do Kubernetes se ele não foi projetado para isso?
O Kubernetes não suporta A2A nativamente. A Orange usa um layer de 'Agentic Networking': um sidecar personalizado que traduz mensagens A2A em gRPC com certificados mTLS gerados por SPIRE, roteados via Cilium com políticas de rede específicas para cada par agente-agente. Isso evita que agentes conversem diretamente por HTTP ou DNS, reduzindo superfície de ataque.
Qual a diferença prática entre usar OPA e Kyverno nessa arquitetura?
Kyverno aplica políticas no admission control do Kubernetes, bloqueia criação de pods que não têm limites de memória ou que usam imagens não assinadas. OPA opera em tempo de execução: decide, por exemplo, se um agente pode chamar a API do Jira com base na credencial JWT emitida pelo Mattermost, no contexto exato da solicitação. São camadas complementares, não redundantes.
Por que o Kafka é essencial se já temos Prometheus e Grafana?
Prometheus coleta métricas. Kafka transporta eventos imutáveis e ordenados, como 'agente-042 detectou anomalia X no pod Y', seguido de 'validação humana aprovada', seguido de 'ação executada'. Essa sequência permite replay exato para auditoria, treinamento de modelos de ML clássicos e depuração de falhas de raciocínio dos LLMs. Métricas não dão esse nível de contexto causal.
Fontes
- cncf.iofonte original
- Categoria
- CEVIU DevOps
- Publicado
- 19 de junho de 2026
- Editoria
- CEVIU DevOps
