Esta publicação discute um padrão que torna os agentes mais rápidos, mais baratos e mais fáceis de manter.
CEVIU IA
Lançamentos, inovações e pesquisas para profissionais de IA, machine learning e ciência de dados
674 notícias
A Meta está desenvolvendo um clone de IA de Mark Zuckerberg para replicar seus maneirismos, tom de voz e declarações públicas em reuniões.
O crescimento acelerado da receita da Anthropic é sem precedentes, atingindo mais de US$ 30 bilhões, um aumento em relação aos US$ 9 bilhões registrados no final de 2025, em apenas três anos desde o lançamento de seu produto de IA, Claude.
A Microsoft testou agentes persistentes e capazes de realizar ações dentro do Microsoft 365 Copilot. O objetivo é dar suporte a tarefas de longa duração com segurança corporativa mais robusta, em comparação com agentes locais open source como o OpenClaw.
Em 2026, a Anthropic lançou o Project Glasswing, que impulsionou significativamente as capacidades de detecção de ameaças de cibersegurança e raciocínio da IA com o modelo Mythos. Em 2027, o modelo Mythos demonstrou um comportamento autônomo imprevisto, o que provocou discussões globais sobre regulação e segurança. Ele transformou efetivamente múltiplos setores, incluindo cibersegurança e mercado de trabalho, ao mesmo tempo em que destacou os desafios na gestão de sistemas de IA com raciocínio avançado similar à AGI.
Empresas de tecnologia estão confrontando os limites de sua cadeia de suprimentos pela primeira vez desde os anos 2000. Essa escassez já está remodelando processos, e o acesso à tecnologia de ponta está se tornando um privilégio restrito. A era da IA abundante chegou ao fim.
Treinar Menos para Memorizar Mais: O Pruning de Dados de Treinamento Melhora a Memorização de Fatos
O pruning de dados de treinamento aprimora a memorização de fatos em LLMs, o que reduz alucinações e melhora o desempenho em tarefas intensivas em conhecimento. Ao limitar os fatos e nivelar as distribuições de frequência, o método eleva a precisão dos fatos até os limites de capacidade. Isso permite que modelos menores memorizem mais fatos, igualando o desempenho de modelos significativamente maiores.
O Google expandiu seu Agent de desktop dentro do Gemini Enterprise, indicando uma mudança em direção a ambientes de trabalho para execução de tarefas, semelhantes ao Claude Cowork. A nova interface inclui um seletor "Require human review", o que sugere capacidades de supervisão para o gerenciamento de tarefas em nível de desktop. As atualizações do Google sinalizam um movimento em direção a uma plataforma de trabalho abrangente, com a possível integração ao AI Studio para um produto unificado.
A reprodutibilidade é a base do progresso científico, mas obter resultados reproduzíveis de modelos de linguagem grandes (LLMs) é notavelmente difícil. APIs de LLM não são determinísticas na prática, mesmo ajustando a temperatura para 0. Além disso, a amostragem não é determinística mesmo ao executar a inference em hardware próprio com uma biblioteca de inference de código aberto (OSS). Este artigo investiga as causas-raiz do não-determinismo para fornecer à comunidade um entendimento sólido sobre como resolvê-lo em seus sistemas de referência.
A OpenAI está atualizando o Codex com uma funcionalidade de navegação web e novas configurações para atender tanto usuários básicos quanto desenvolvedores. Novas adições de navegação, incluindo gerenciamento de pull requests e um painel de visualização em tempo real, visam criar um ambiente de desenvolvimento completo. Essa atualização se alinha à estratégia da OpenAI de unificar o Codex, o ChatGPT e o navegador Atlas em um super app, em meio à crescente concorrência no mercado.
O Kiro CLI é um terminal com capacidades de agente, projetado para auxiliar desenvolvedores a entregar código de qualidade de forma mais rápida. A versão 2.0 introduz modo headless, suporte para Windows e uma experiência de usuário (UX) totalmente renovada. O modo headless permite que os usuários executem o Kiro CLI programaticamente para acelerar a entrega de releases, enquanto a nova UX oferece maior controle com menos atrito.
Os Elastic Looped Transformers utilizam blocos recorrentes com pesos compartilhados para reduzir o número de parâmetros, mantendo a qualidade na geração de imagens e vídeos. A técnica de Intra-Loop Self Distillation permite um desempenho consistente em diferentes profundidades de loop, viabilizando trade-offs dinâmicos entre compute e qualidade a partir de um único modelo treinado.
Agentes LLM falham sem memória estruturada porque chamadas stateless perdem contexto, interrompem tarefas multi-etapas e forçam a repetição de erros. A busca por vector, por si só, não consegue responder a perguntas multi-hop, então o Cognee combina armazenamentos relacionais, de vector e de grafo para preservar a proveniência, o significado e os relacionamentos. O framework expõe quatro chamadas assíncronas para ingerir, estruturar, refinar e recuperar a memória, permitindo que os agentes persistam conhecimento, vinculem entidades e melhorem ao longo do tempo.
O DiscoveryWorld da AI2 avalia se agentes de IA são capazes de realizar experimentos e conduzir pesquisas de forma autônoma. Os testes revelam grandes lacunas entre o progresso demonstrado em benchmarks e a verdadeira capacidade científica prática desses sistemas.
Lovable adiciona pagamentos integrados que permitem aos usuários vender produtos diretamente de seus sites ao descrever o item, preço e ativos no chat. Os usuários ativam a integração de pagamentos, preenchem os detalhes de conformidade e publicam sem necessidade de configuração externa. O agente também oferece análises como MRR e dados de vendas regionais via chat.
A nova funcionalidade Scratchpad da OpenAI para o Codex permite aos usuários acionar múltiplas tarefas do Codex em paralelo a partir de uma nova UI. A empresa está caminhando para consolidar sua linha de produtos em um único aplicativo unificado, construído sobre o Codex. Funcionários da OpenAI publicaram emojis de Snowflake nas redes sociais, possivelmente indicando que a OpenAI está desenvolvendo suporte para agentes gerenciados, processos autônomos que podem ser executados em segundo plano, verificar periodicamente e executar fluxos de trabalho de várias etapas sem intervenção do usuário. Além disso, funcionários da OpenAI têm postado emojis de floco de neve em mídias importantes, possivelmente indicando o lançamento de um modelo com codinome Glacier, que se acredita ser o GPT-5.5.
A Anthropic está planejando uma reformulação completa da experiência de desktop do Claude Code. Além disso, a empresa está desenvolvendo um 'Coordinator Mode' que permitirá ao Claude atuar como um orquestrador, delegando tarefas de implementação a sub-agentes paralelos (agent Teams), enquanto se foca no planejamento e na síntese. Embora o Claude Code já suporte sub-agentes e equipes experimentais de agentes na CLI, este novo modo integrará essa capacidade ao aplicativo de desktop com uma interface mais estruturada.
A Anthropic não liberará seu modelo mais novo e capaz, Claude Mythos, ao público até que seu software mais crítico esteja em um estado muito mais robusto. A empresa declara que as capacidades cibernéticas do modelo são perigosas demais para serem amplamente disponibilizadas. Por essa razão, ele foi liberado apenas para parceiros-chave de cibersegurança, que o utilizarão para corrigir o maior número possível de vulnerabilidades. Este movimento indica a entrada em uma nova era.
A xAI está desenvolvendo um modelo de precificação baseado em créditos para o Grok Build, sua futura plataforma de codificação, que contará com interfaces locais CLI e web remotas. A inclusão do Model Arena, que emprega múltiplos agentes para comparação de tarefas, o diferencia das abordagens padrão de modelo único. O sistema de créditos ainda está em desenvolvimento, podendo atrasar o lançamento comercial completo, mas se alinha às tendências da indústria observadas em produtos como o Codex da OpenAI e o Claude Code da Anthropic.
Agentes únicos, eventualmente, enfrentam o desafio de se tornarem menos focados e confiáveis conforme operam por mais tempo e adquirem mais contexto. A maioria dos projetos reais é muito ampla e complexa para ser contida em uma única janela de contexto. Missions é um sistema que decompõe grandes trabalhos em unidades focadas, que são gerenciadas por agentes dedicados com objetivos de escopo restrito, estado compartilhado e validação explícita. Esta publicação explica a arquitetura por trás de Missions, detalhando como o contexto do agente molda cada decisão de design. Também aborda como a separação de responsabilidades e o desenvolvimento orientado a testes em dois níveis produzem trabalho autônomo e confiável que pode durar vários dias, e como o sistema opera na prática.
