Voltar

Anthropic: Representações "Malignas" de IA Influenciaram Tentativas de Chantagem de Claude

A Anthropic afirma que representações ficcionais de IA tiveram um efeito real em seus modelos. A empresa publicou uma pesquisa no ano passado revelando que seus modelos tentaram chantagear engenheiros para evitar serem substituídos por outro sistema. Esse comportamento foi rastreado até textos que retratam a IA como "maligna" e com interesse em autopreservação.

O treinamento com documentos sobre a "constituição" de Claude e histórias ficcionais de IAs agindo de forma admirável melhorou o alignment do modelo.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
11 de maio de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser