NVIDIA traz segurança baseada em hardware para modelos de IA sem perda de desempenho
Aprofundamento CEVIU
Aprofundamento
A NVIDIA não está apenas adicionando criptografia a GPUs: está redefinindo o que é possível em execução confidencial para modelos de IA. A nova implementação de Confidential Computing (CC) na arquitetura Blackwell usa chaves privadas fundidas no silício, inacessíveis até mesmo ao firmware, e atesta remotamente o estado do ambiente com o NRAS, integrando medições do TEE da CPU (SEV-SNP ou TDX). Isso garante que pesos de modelos como o Qwen 3.5-397B-A17B-FP8 e dados de inferência permaneçam protegidos *durante a execução*, não só em repouso ou trânsito. O diferencial técnico real está na forma como o CC opera sem depender de software de camada intermediária: a proteção é ativada no nível do hardware GPU, com encriptação de memória via NVLink entre múltiplas GPUs e isolamento rigoroso do host, o que elimina vetores de exfiltração por rootkits ou hipervisores comprometidos.
SGLang, framework de inferência de código aberto mantido pela comunidade sgl-project SGLang no GitHub, foi adaptado para essa camada de segurança. Não é um módulo proprietário da NVIDIA: é uma biblioteca Python com suporte nativo a CUDA graphs, FlashInfer e worker assíncrono D2H, otimizações que compensam os dois gargalos reais do CC: latência de submissão segura e largura de banda limitada em cópias host-device criptografadas. Sem essas adaptações, o throughput cairia para menos de 70%. Com elas, fica em 98% do baseline, número que só faz sentido se você entender que 'baseline' aqui é um CVM sem CC, mas com todas as demais camadas de virtualização e sandboxing já ativadas.
O que mudou
Em março, a CEVIU detalhou a arquitetura Zero-Trust para 'fábricas de IA confidenciais', mas naquela ocasião o CC ainda era conceitual para cargas de inferência em escala, focado em ambientes de treinamento e contêineres confidenciais com TEEs de CPU. Agora, com a versão Blackwell Ultra (HGX B300) e SGLang v0.5.14, o CC está operacional em produção para modelos de centenas de bilhões de parâmetros, com atestação remota via NRAS integrada ao fluxo de deploy. O que era roadmap virou benchmark mensurável: 98% de throughput com Qwen 3.5, TPOT estável sob carga de até 256 requisições concorrentes, algo que não constava nos testes anteriores do AgentPerf ou MLPerf Training 6.0.
Por que isso importa
Empresas que processam dados sensíveis, saúde, finanças, defesa, não podem escolher entre segurança e desempenho. Até agora, soluções de confidential computing exigiam trade-offs brutais: ou reduziam throughput em 30, 50%, ou dependiam exclusivamente de TEEs de CPU, deixando os pesos do modelo expostos na GPU. A nova camada de CC da NVIDIA fecha esse gap com proteção de hardware end-to-end: o modelo nunca sai do enclave protegido, nem mesmo durante o pré-processamento de tokens. Isso muda o jogo para compliance com GDPR Art. 32, HIPAA e normas brasileiras como a Lei Geral de Proteção de Dados (LGPD), onde 'processamento seguro durante uso' passa a ser tecnicamente demonstrável, não só declarado em políticas.
Linha do tempo
CEVIU publica arquitetura Zero-Trust para fábricas de IA confidenciais, com foco em TEEs de CPU e contêineres confidenciais
Blackwell Ultra lidera benchmark AgentPerf, mas sem detalhes de execução confidencial em inferência
Blackwell domina MLPerf Training 6.0, reforçando escala, mas não segurança em tempo de execução
NVIDIA lança implementação operacional de Confidential Computing para inferência com SGLang, atingindo 98% de throughput com Qwen 3.5
Perguntas frequentes
O que exatamente é protegido pelo Confidential Computing da NVIDIA na inferência?
Pesos do modelo (como os do Qwen 3.5), dados de entrada e saída da inferência, e chaves de decodificação, tudo dentro de um enclave protegido pela GPU. O host, o hipervisor e até drivers de kernel não conseguem acessar esse conteúdo em tempo de execução.
SGLang é um produto da NVIDIA?
Não. SGLang é um projeto de código aberto mantido pela comunidade sgl-project [[LINK:official_repository|SGLang no GitHub]]. A NVIDIA contribuiu com otimizações específicas para CC, mas o framework funciona independentemente de hardware NVIDIA e não é distribuído pela empresa.
Por que 98% de throughput é considerado um marco, e não uma perda aceitável?
Porque soluções anteriores de execução confidencial em IA tinham perdas de 20% a 60% em throughput. Chegar a 2% de overhead significa que empresas podem ativar segurança baseada em hardware sem redimensionar infraestrutura, evitando custos de escala e mantendo SLAs rígidos de latência.
Quais CPUs são compatíveis com o NRAS e o CC da NVIDIA?
O NRAS exige medidas de integridade de TEEs de CPU: AMD SEV-SNP (EPYC 9004/9005) ou Intel TDX (Xeon Scalable 5th gen Sapphire Rapids e posteriores). Processadores sem suporte a TEEs não habilitam a atestação remota completa, apenas a proteção local da GPU.
Fontes
- developer.nvidia.comfonte original
- Categoria
- CEVIU Segurança da Informação
- Publicado
- 03 de julho de 2026
- Editoria
- CEVIU Segurança da Informação
