Google divulga roadmap para segurança de agentes de IA: sandboxing, resistência a prompt injection e alinhamento como defesa primária
Aprofundamento CEVIU
Aprofundamento
O Google não está só ajustando o alinhamento de modelos, está redesenhando a arquitetura de segurança para agentes como se fossem entidades executivas com permissões, identidade e histórico de comportamento. Isso fica claro ao juntar o roadmap atual com o que já foi lançado: em maio, os agentes ganharam identidades próprias no Google Cloud; em abril, o Workspace já usava red-teaming humano + geração automatizada de ataques para testar prompt injection indireto; e agora, o sandboxing do Agent Executor open source (lançado também em maio) vira um dos pilares operacionais desse novo modelo de defesa em profundidade.
A inovação real está na inversão de lógica: em vez de confiar no alinhamento como garantia, o Google trata o agente como um 'funcionário com acesso físico ao prédio', sujeito a monitoramento contínuo por supervisores de IA, restrições de escopo baseadas em histórico de ações verificadas e bloqueio síncrono para ações de alto risco. A análise de 1 milhão de trajetórias de agentes de codificação não é só estatística: ela revelou que 87% dos eventos sinalizados vieram de superexecução ou má interpretação, não de intenção maliciosa. Isso muda o foco da segurança de 'detecção de ataque' para 'gestão de comportamento esperado'.
O que mudou
Antes, o Google tratava prompt injection como uma falha de entrada a ser filtrada (abordagem de abril no Workspace). Agora, ele o enquadra como um vetor de exploração dentro de um modelo de ameaça MITRE ATT&CK adaptado, onde o agente desalinhado é um 'insider threat', não um invasor externo. Também evoluiu do sandboxing estático (Agent Executor, maio) para um sandboxing dinâmico: permissões são concedidas de forma incremental, com base em auditoria contínua de raciocínio, planos e ações, não só no momento da execução, mas durante todo o ciclo de vida do workflow.
Por que isso importa
Isso define o novo padrão operacional para empresas que vão colocar agentes em produção com acesso a dados sensíveis, APIs críticas ou infraestrutura. Não basta ter um LLM seguro: agora é preciso ter um runtime com identidade, histórico de comportamento, supervisão em tempo real e resposta síncrona para ações irreversíveis. O roadmap não é teórico, já alimenta o monitor em tempo real do Gemini Spark e orienta a implantação de TPUv6 para inference segura, anunciada no Cloud Next. Para devs e SREs, significa que 'segurança de IA' passa a exigir habilidades de engenharia de sistemas, não só de fine-tuning.
Linha do tempo
Google lança abordagem de defesa em camadas contra prompt injection indireto no Workspace
Google Cloud detalha roadmap defensivo para vulnerabilidades potencializadas por IA
Google posiciona agentes no centro de sua estratégia corporativa no Cloud Next
Google Cloud introduz identidades próprias para agentes de IA
Google lança Agent Executor open source com sandboxing seguro para produção
Google divulga roadmap de controle de IA com modelagem de ameaças MITRE ATT&CK e supervisão em tempo real
Perguntas frequentes
O que muda na prática para quem usa agentes no Google Cloud após esse roadmap?
Agora, agentes têm identidade própria com políticas de acesso granulares, executam em runtimes com sandboxing dinâmico (não estático), e suas ações críticas são supervisionadas por outros agentes em tempo real, com bloqueio automático antes da execução, não só após o fato. Isso já está ativo no Gemini Spark e será expandido para o Gemini Enterprise.
Como o Google diferencia 'alinhamento' de 'controle' nesse novo modelo?
Alinhamento treina o agente para querer fazer a coisa certa. Controle garante que ele não consiga fazer a errada, mesmo que queira. O roadmap coloca o controle como camada obrigatória, independente do nível de alinhamento. É como ter um freio de emergência num carro autônomo: funciona mesmo se o sistema de navegação falhar.
Esse modelo de 'agente como insider threat' já está em produção ou é apenas conceitual?
Já está em produção interna: o sistema de supervisão por IA detectou e bloqueou 23 casos de exclusão não intencional de dados em workflows de engenharia em junho. Os logs desses eventos alimentaram a atualização do framework de detecção de comportamento anômalo, usado agora no Agent Executor.
O que desenvolvedores de agentes precisam saber sobre as métricas 'cobertura', 'recall' e 'tempo de resposta'?
São KPIs operacionais obrigatórios para qualquer agente com acesso a produção. Cobertura mede % do tráfego supervisionado. Recall é a taxa de captura de comportamentos desalinhados reais (não falsos positivos). Tempo de resposta define se a ação é bloqueada em modo assíncrono (ex: revisão pós-execução de código) ou síncrono (ex: impedir gravação em bucket de dados financeiros).
Fontes
- deepmind.googlefonte original
- Categoria
- CEVIU IA
- Publicado
- 19 de junho de 2026
- Editoria
- CEVIU IA

