Atualização ARC-AGI-3: Avaliando a Capacidade de Generalização e Raciocínio de Agentes de IA
O ARC-AGI-3 é um benchmark de raciocínio interativo, projetado para medir a capacidade de um agente de IA de generalizar em ambientes novos e não vistos. O Opus 4.6 demonstrou um raciocínio e uso de memória superiores ao Gemini 3.1 Pro, resolvendo mais níveis neste desafio.
É possível que os modelos atuais consigam resolver o ARC-AGI-3 se tiverem acesso a um harness com uma memória simples. Scaffolds de memória são provavelmente suficientes para que o pseudo-continual learning nos impulsione a um limiar de autoaperfeiçoamento ou de agentes de pesquisa nos próximos dois anos.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 20 de fevereiro de 2026
- Fonte
- CEVIU IA
