Vazamento do system prompt do modelo Fable-5 da Anthropic

11 de junho de 2026

Resumo

ATUALIZAÇÃO (12/06/2026): não é mais rumor, foi lançado. 11/06/2026. O vazamento do system prompt do modelo Fable-5 da Anthropic ocorreu em 11 de junho de 2026, poucos dias após o lançamento oficial do modelo em 9 de junho de 2026. O pesquisador "Pliny the Liberator" publicou no GitHub um system prompt de aproximadamente 120.000 caracteres, alegando ter "jailbreakado" o modelo e exposto suas instruções internas de segurança. A Anthropic, no entanto, contestou a alegação de um "jailbreak" real, afirmando que seus sistemas de segurança permanecem robustos e que as informações obtidas não representam uma violação significativa de suas salvaguardas.

(Rumor original) O system prompt do modelo Fable-5 da Anthropic foi vazado. O conteúdo totaliza cerca de 120.000 caracteres, e a íntegra do documento está disponível para consulta na thread original.

Aprofundamento CEVIU

Aprofundamento

O vazamento do system prompt do Claude Fable 5, ocorrido em março de 2026 antes de seu lançamento oficial em 9 de junho de 2026, expôs um documento técnico de cerca de 120.000 caracteres, o maior e mais estruturado system prompt já divulgado publicamente. Diferente de instruções genéricas, ele revela a arquitetura completa do 'agentic harness' da Anthropic, com 500.000 linhas de código de produção e detalhes sobre produtos não lançados como KAIROS, BUDDY e ULTRAPLAN. O Claude Fable 5 é a primeira versão da família Claude 5 e pertence à classe Mythos-class, superando o Claude Opus 4.6 em testes de codificação, raciocínio acadêmico e cibersegurança, conforme confirmado por rascunhos internos vazados e pela própria Anthropic, que o chamou de 'um passo evolutivo' e 'o mais capaz que já construímos até hoje'.

O incidente foi causado por uma falha de configuração em um CMS interno, expondo 3.000 ativos não publicados, incluindo rascunhos de blog, imagens e documentos técnicos sobre o Mythos. Poucos dias depois, em 31 de março de 2026, ocorreu um segundo vazamento: o código-fonte do Claude Code, com um arquivo JavaScript de 59,8 MB contendo 500.000 linhas de código interno. O Claude Fable 5 opera com salvaguardas dinâmicas, em tópicos sensíveis (cibersegurança, biologia, química), ele redireciona silenciosamente para o Claude Opus 4.8, e possui intervenções ocultas que limitam sua aplicação em desenvolvimento de LLMs de ponta, pré-treinamento e design de aceleradores de ML.

Por que isso importa

Esse vazamento é historicamente relevante porque fornece a primeira visão pública detalhada de como um modelo de classe Mythos-class é orientado operacionalmente, não apenas com regras éticas, mas com circuitos de detecção comportamental avançados, como 'circuitos de detecção de terapeuta' que identificam sinais de transtornos alimentares ou pensamentos de automutilação e acionam respostas direcionadas a recursos profissionais, sem oferecer diagnóstico. Isso contrasta com abordagens genéricas de segurança e mostra que o Claude Fable 5 foi projetado como um sistema agêntico integrado, não apenas um modelo de linguagem. A transparência parcial da Anthropic, que já publicou system prompts oficialmente em outros lançamentos, torna esse vazamento ainda mais crítico para pesquisadores, auditores de IA e reguladores que buscam entender os limites reais de modelos como o Claude Fable 5, o Claude Mythos 5 e o Claude Opus 4.8.

Impacto para desenvolvedores

Para desenvolvedores, o system prompt vazado do Claude Fable 5 serve como um case study único de engenharia de agentes de IA em escala industrial: ele detalha fluxos de trabalho com múltiplos subagentes, controle de esforço computacional e modos especializados como o Ultra Code, capaz de gerar até 1.000 subagentes por tarefa, conforme implementado no Claude Opus 4.8 (lançado em 28 de maio de 2026). A exposição do 'agentic harness' com 500.000 linhas de código revela padrões de orquestração, fallbacks hierárquicos entre modelos (ex.: Fable 5 → Opus 4.8 em domínios sensíveis) e mecanismos de contenção contra autoaprimoramento. Isso impacta diretamente quem constrói aplicações com Claude API, pois evidencia que o comportamento real do Claude Fable 5 não é estático, mas adaptativo, com restrições ocultas que afetam desempenho em tarefas de pesquisa avançada, engenharia reversa de modelos ou otimização de hardware de IA.

Perguntas frequentes

O que é o Claude Fable 5?

O Claude Fable 5 é o primeiro modelo da família Claude 5, lançado oficialmente em 9 de junho de 2026. Pertence à classe Mythos-class da Anthropic, superando o Claude Opus 4.6 em capacidades de codificação, raciocínio acadêmico e cibersegurança. Ele é o modelo mais inteligente de uso geral disponível, com salvaguardas adicionais em áreas sensíveis como biologia e química, onde recorre silenciosamente ao Claude Opus 4.8.

Quando o Claude Fable 5 foi lançado?

O Claude Fable 5 foi lançado oficialmente em 9 de junho de 2026. Seu system prompt foi vazado anteriormente, em março de 2026, como parte de um incidente de segurança envolvendo um CMS mal configurado que expôs milhares de ativos internos da Anthropic.

Qual é a diferença entre Claude Fable 5 e Claude Mythos 5?

O Claude Fable 5 e o Claude Mythos 5 compartilham a mesma base de capacidades subjacentes, mas diferem em restrições operacionais: o Fable 5 é disponibilizado publicamente com salvaguardas reforçadas em domínios de alto risco (como cibersegurança), enquanto o Mythos 5 é oferecido apenas a parceiros confiáveis, sem essas limitações adicionais, sendo descrito como 'atualmente muito à frente de qualquer outro modelo de IA em capacidades cibernéticas'.

O que foi vazado no system prompt do Claude Fable 5?

Foi vazado um documento de aproximadamente 120.000 caracteres contendo o system prompt completo do Claude Fable 5, incluindo a arquitetura do 'agentic harness', 500.000 linhas de código de produção, roteiros de produtos não lançados (KAIROS, BUDDY, ULTRAPLAN) e mecanismos avançados como 'circuitos de detecção de terapeuta'. O vazamento ocorreu em março de 2026, antes do lançamento oficial.

Links relacionados

Fontes

x.comfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 11 de junho de 2026
Editoria: CEVIU IA