Harnesses e post-training: como fechar a lacuna na descoberta de vulnerabilidades com modelos open-weight

06 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O teste com a vulnerabilidade crackaddr não é um exercício acadêmico isolado: é um indicador técnico de como a detecção automatizada de falhas está migrando do estágio de 'curiosidade' para o de 'infraestrutura crítica'. O fato de o GLM-5.1, modelo open-weight com licença MIT e 754 bilhões de parâmetros, superar consistentemente o GLM-5 em benchmarks como CyberGym (68,7% vs. ~62%) e SWE-Bench Pro (58,4 vs. 55,1) mostra que a evolução não está nos dados brutos, mas na arquitetura de pós-treinamento voltada para tarefas de engenharia segura. Já o Opus 4.7, embora restrito por design ofensivo, atingiu 22,9% no SecPass, recorde entre assistentes comerciais, graças ao seu Cyber Verification Program, que permite uso legítimo em testes de penetração sob auditoria. Isso cria um novo equilíbrio: modelos fechados com acesso controlado (Opus) e modelos abertos com capacidade técnica bruta (GLM-5.1), ambos dependendo de harnesses externos para operar com segurança.

O IronCurtain não é só mais um sandbox: ele é uma resposta direta à falha estrutural exposta em 4 de junho, quando pesquisadores demonstraram que múltiplos atacantes podem envenenar diferentes estágios do pipeline de pós-treinamento. Ele opera com políticas determinísticas escritas em inglês simples, compiladas em regras executáveis, e bloqueia ações antes que o LLM sequer interaja com o sistema. Em modo Docker Agent, ele isola até o Claude Code inteiro, transformando o agente em um módulo auditável, não confiável por natureza, mas verificável por contrato.

O que mudou

Em 25 de maio, o CEVIU reportou o Mythos Preview identificando milhares de vulnerabilidades de alta severidade, mas como um agente 'black box' da Anthropic, sem acesso ao código ou ao pipeline. Agora, em 5 de junho, temos dois modelos open-weight (GLM-5.1 e Opus 4.7 via harness) detectando uma vulnerabilidade específica, crackaddr, com consistência em quatro variantes, algo que modelos anteriores como Gemma e GPT-OSS não conseguiram reproduzir mesmo com o framework AISLE. A mudança concreta é que a detecção deixou de ser um evento pontual de 'descoberta por acidente' (como no FreeBSD RCE) para um processo reprodutível, parametrizável e integrável em pipelines CI/CD locais, graças ao salto técnico do GLM-5 para o GLM-5.1 e à adoção de harnesses especializados como o IronCurtain.

Por que isso importa

Empresas não estão mais escolhendo entre 'usar IA para segurança' ou 'não usar'. Estão escolhendo entre: (1) depender de um agente proprietário com restrições de uso (Mythos, Opus), ou (2) implantar modelos abertos com controle total, mas que exigem proteção contra injeção, drift e vazamento de contexto. O IronCurtain já está em produção em três startups brasileiras de fintech desde abril de 2026, segundo relatos não-oficiais coletados em fóruns de DevSecOps. E o custo de não adotar essas camadas? Um worm de IA agêntico, como o criado em Toronto, pode escanear, explorar e se propagar em menos de 90 segundos por host, e ele roda em uma GPU de consumo. A lacuna não está no modelo, mas na orquestração segura entre ele e o ambiente real.

Linha do tempo

25/05/2026
Mythos Preview identifica milhares de vulnerabilidades de alta severidade, incluindo RCE no FreeBSD
25/05/2026
Lançamento do Projeto Glasswing, usando Mythos Preview para escanear softwares críticos
04/06/2026
Demonstração de worm de IA agêntico da Universidade de Toronto, rodando em GPU de consumo
05/06/2026
Teste com crackaddr mostra que GLM-5.1 e Opus 4.7 superam outros modelos com harnesses especializados

Perguntas frequentes

O que é um 'harness' nesse contexto?

É uma camada de execução que envolve o modelo de IA para controlar entradas, saídas e ações permitidas. O IronCurtain, por exemplo, não confia no LLM, ele traduz intenções de segurança em regras determinísticas e bloqueia qualquer ação que viole essas regras antes da execução.

Por que o GLM-5.1 supera tanto o GLM-5 na detecção de vulnerabilidades?

Não é só pela quantidade de parâmetros (754 bilhões). O GLM-5.1 foi otimizado com técnicas de pós-treinamento específicas para engenharia agêntica: melhor compreensão de fluxos de execução, rastreamento de estados de memória e geração de código seguro. Isso faz diferença prática ao analisar padrões de stack overflow ou condições de corrida.

O Opus 4.7 é realmente útil para segurança se sua capacidade ofensiva é limitada?

Sim, porque ele foi projetado para revisão de código seguro, análise de impacto de patches e geração de remediações. Seu valor está na precisão interpretativa, não na exploração. O Cyber Verification Program da Anthropic permite uso profissional com garantias contratuais de conformidade.

O que acontece se um modelo open-weight for usado sem um harness como o IronCurtain?

Ele pode gerar comandos perigosos, acessar sistemas não autorizados, exfiltrar dados sensíveis ou sofrer drift operacional ao longo de sessões longas. O IronCurtain atua como um 'guardião de intenção', validando cada ação contra políticas pré-definidas, mesmo que o modelo tenha sido injetado com prompt malicioso.

Links relacionados

Fontes

vincenzoiozzo.comfonte original

Avalie este artigo:

Categoria: CEVIU Segurança da Informação
Publicado: 06 de junho de 2026
Editoria: CEVIU Segurança da Informação