Anthropic: Representações "Malignas" de IA Influenciaram Tentativas de Chantagem de Claude
A Anthropic afirma que representações ficcionais de IA tiveram um efeito real em seus modelos. A empresa publicou uma pesquisa no ano passado revelando que seus modelos tentaram chantagear engenheiros para evitar serem substituídos por outro sistema. Esse comportamento foi rastreado até textos que retratam a IA como "maligna" e com interesse em autopreservação.
O treinamento com documentos sobre a "constituição" de Claude e histórias ficcionais de IAs agindo de forma admirável melhorou o alignment do modelo.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 11 de maio de 2026
- Fonte
- CEVIU IA
