Anthropic adota novos filtros de segurança cibernética e framework de jailbreak no Fable 5
Aprofundamento CEVIU
Aprofundamento
O CJS-2 é o nível 'Médio' na escala Cyber Jailbreak Severity (CJS) proposta pela Anthropic, não um produto ou repositório, mas uma classificação técnica com critérios objetivos. Ele aplica-se a jailbreaks que geram ganho de capacidade moderado (ex: descobrir vulnerabilidades que modelos anteriores não identificavam, mas que já estão no radar de ferramentas especializadas), abrangência limitada (funciona em 2, 3 vetores ofensivos distintos, como exploração + exfiltração, mas não em toda cadeia de ataque), e baixa facilidade de militarização (exige ajuste manual por um profissional com conhecimento de prompt engineering avançado). A pontuação final entre 4 e 6,5 pontos é calculada somando quatro eixos: uplift (0, 4), breadth (0, 2), ease of weaponization (0, 2) e discoverability (0, 2).
O CJS-2 serve principalmente a equipes de segurança cibernética, auditores regulatórios e desenvolvedores de IA que precisam priorizar correções: ele sinaliza riscos reais, mas não iminentes, suficientes para exigir revisão de classificadores, mas não para suspensão imediata do modelo. Sua limitação mais concreta é operacional: mesmo com pontuação média, o framework permite aumento discricionário da severidade se houver fatores agravantes confirmados, como falha crítica não corrigida em camadas subjacentes do pipeline.
O que mudou
Na cobertura anterior de 15 de junho, o Fable 5 estava suspenso globalmente após restrições do Departamento de Comércio dos EUA fonte. Agora, em 3 de julho, ele volta com classificadores reforçados que bloqueiam 99% das tentativas de exploit demonstradas por pesquisadores da Amazon, um caso real que motivou a suspensão. O CJS-2 não é novo, mas passa de conceito teórico (descrito em rascunho no artigo de 2 de julho) para critério aplicado: os novos filtros usam essa escala para calibrar o 'safety margin', ampliando o bloco de requisições de alto risco sem eliminar categorias inteiras de uso defensivo, como análise de logs ou revisão de código seguro.
Por que isso importa
Para devs de segurança, o CJS-2 define onde parar de testar e começar a reportar: se seu jailbreak atinge esse nível, ele entra no escopo do programa HackerOne da Anthropic com recompensa. Para engenheiros de IA, é um indicador prático de trade-off entre DX e segurança, quanto maior o uplift permitido, menor a falsa positiva em tarefas legítimas, mas maior o risco de vazamento de capacidade ofensiva. E para empresas que integram Fable 5 em pipelines de segurança, o CJS-2 é o primeiro sinal de alerta operacional: quando um incidente for classificado assim, o time deve revisar não só o prompt, mas também as políticas de acesso e o contexto de execução (quem, quando, com qual autorização). Não é um selo de aprovação, é um termômetro de risco mensurável.
Linha do tempo
Lançamento inicial do Claude Fable 5 e Mythos 5
Suspensão global do Fable 5 após restrição de exportação do Departamento de Comércio dos EUA
Retorno do Fable 5 com classificadores atualizados
Anúncio oficial da reimplantação com nova estrutura de segurança e divulgação do framework CJS
Perguntas frequentes
O CJS-2 é um software ou uma ferramenta que posso baixar?
Não. O CJS-2 é uma classificação dentro do framework Cyber Jailbreak Severity, uma escala de avaliação, não um código executável. Ele não tem repositório, versão ou instalação. É usado internamente pela Anthropic e parceiros para priorizar respostas a incidentes e comunicar riscos com padrão técnico.
Por que o Fable 5 voltou com 'classificadores mais rigorosos' se o CJS-2 é apenas 'Médio'?
O CJS-2 mede a gravidade de *tentativas de bypass*, não a severidade do modelo. Os novos classificadores foram treinados para detectar padrões que levariam a CJS-2 ou superior, especialmente aqueles que exploram uplift em vulnerabilidade de alto impacto. A rigidez vem da calibração do 'safety margin', não da escala em si.
O que muda na prática para um pentester que usa Fable 5 hoje?
Você ainda pode pedir análise de código-fonte, revisão de configurações de firewall ou tradução de scripts para linguagens seguras. Mas tentativas de gerar exploits completos, mesmo para CVEs públicos, serão bloqueadas, porque isso gera uplift acima do limiar permitido para CJS-2. O modelo agora diferencia 'achar bug' de 'montar ataque'.
Esse framework vai ser adotado por outros laboratórios de IA?
A Anthropic lançou o CJS como proposta aberta, com apoio explícito de Amazon, Microsoft e Google. Mas até agora, só ela o aplica operacionalmente no Fable 5. Não há evidência de adoção formal por terceiros, apenas discussões em grupos de trabalho do NIST e da ISO sobre padronização futura.
Fontes
- anthropic.comfonte original
- Categoria
- CEVIU Web Dev
- Publicado
- 03 de julho de 2026
- Editoria
- CEVIU Web Dev

