Os Claude Managed Agents foram lançados com funcionalidades como "dreaming", "outcomes" e orquestração multiagente. A capacidade de "dreaming" aprimora o autoaperfeiçoamento dos agentes ao analisar sessões passadas para identificar padrões, enquanto as "outcomes" permitem que os agentes se autocorríjam com base em critérios de sucesso predefinidos. A orquestração multiagente otimiza a gestão de tarefas complexas, possibilitando que os agentes deleguem tarefas a subagentes especializados. Essa capacidade já está sendo utilizada por empresas como Harvey, Netflix, Spiral by Every e Wisedocs para diversas aplicações.

CEVIU News - CEVIU IA - 7 de maio de 2026
🤖 CEVIU IA
A Anthropic elevou os limites de uso do Claude por meio de uma nova parceria de compute com a SpaceX, garantindo acesso a mais de 220.000 GPUs NVIDIA. Essa expansão segue acordos anteriores com Amazon, Google, Broadcom, Microsoft, NVIDIA e Fluidstack para capacidade computacional significativa. A empresa também planeja uma expansão internacional para atender às necessidades de compliance de clientes corporativos em setores regulamentados.
A DeepSeek está em negociações para captar recursos do Fundo Nacional de Investimento da Indústria de Inteligência Artificial da China, um fundo apoiado pelo governo com um ano de existência e cerca de US$ 8,8 bilhões em capital. A startup busca levantar alguns bilhões de dólares nesta nova rodada, que a avalia em aproximadamente US$ 50 bilhões. A DeepSeek é um componente-chave no plano da China para desenvolver empresas nacionais de ponta em diversas áreas da IA. Essa estratégia visa proteger o país contra os controles de exportação dos EUA e consolidar sua liderança na disseminação global da tecnologia.
O Codex da OpenAI agora supera o Claude Code da Anthropic, resultado da integração do GPT-5.5 ao Codex e da melhoria no desempenho do aplicativo. Austin Tedesco ressalta o uso do Codex para a criação de documentos de estratégia a partir de diversas fontes, enquanto Dan Shipper o utiliza no recrutamento, baseando-se em trajetórias de carreira. Marcus Moretti, por sua vez, adota uma abordagem cautelosa em relação às novas tecnologias de IA, priorizando ferramentas que comprovadamente resolvem problemas reais e que possuem um histórico de uso respeitável.
Modelos de linguagem esquecem tudo assim que terminam de responder. Sistemas de memória os auxiliam a 'lembrar' informações para que possam manter conversas, sendo uma parte crucial do ciclo que transporta dados adiante em agentes de IA. Este artigo explora diferentes abordagens sobre quais informações devem ser transmitidas em cada ciclo.
O Multipath Reliable Connection (MRC) é um protocolo de transporte RDMA que permite a uma única conexão RDMA distribuir o tráfego por múltiplos caminhos de rede. Isso aprimora o throughput, o balanceamento de carga e a disponibilidade em fabrics de treinamento de IA em larga escala. O MRC garante altos níveis de utilização da GPU ao balancear o tráfego por todos os caminhos disponíveis. Adicionalmente, oferece aos administradores visibilidade e controle granular sobre os caminhos de tráfego, simplificando operações e acelerando a resolução de problemas em escala.
TokenSpeed, um motor de inference LLM de alta performance, otimiza workloads de agentes com eficiência na velocidade da luz, utilizando um mecanismo de modelagem baseado em compilador e um scheduler de alta performance. Ele entrega um throughput mais rápido que o TensorRT-LLM para agentes de codificação, com otimizações como o TokenSpeed MLA para melhorar a performance da Nvidia Blackwell. Desenvolvido em colaboração com NVIDIA DevTech e outros parceiros, o TokenSpeed reduz significativamente a latency e aumenta o throughput em workloads de agentes típicos.
A atualização vLLM V1 aprimorou a precisão da inference ao abordar discrepâncias no cálculo de logprob, padrões de runtime, atualizações de peso em andamento e precisão da projeção final. As principais correções incluíram o ajuste dos logprobs processados, a desativação do cache de prefixo, a correspondência dos modelos de atualização de peso e a garantia do cálculo fp32 do lm_head para alinhar com o comportamento do vLLM V0. Essas mudanças resolveram desalinhamentos iniciais de treinamento, assegurando que o novo motor mantenha o desempenho esperado de RL sem correções desnecessárias no lado do objetivo.
Google aposta que a IA para empresas é uma questão de plataforma, não de serviços. A empresa está em negociações com Blackstone, KKR e EQT para conceder às suas empresas de portfólio acesso aos modelos Gemini através de acordos guarda-chuva de licenciamento. As discussões não são exclusivas e nenhum acordo foi finalizado. Google está oferecendo às firmas de private equity uma estrutura comercial que garante a todo o seu portfólio acesso ao Gemini, contando então com o ecossistema de consultoria que já financiou para lidar com a implementação. Essa abordagem prioriza a velocidade de distribuição em detrimento da receita de consultoria.
A inference de IA exige um desempenho de dados extremo, o que sobrecarrega as infraestruturas de armazenamento e dados tradicionais. Vector DBs, tempos de acesso de submilisegundos e armazenamento em cloud desacoplado são essenciais para lidar com a concorrência sem precedentes e cargas de trabalho imprevisíveis. A Silk oferece uma solução que impulsiona o desempenho do armazenamento sem um provisionamento pesado, mantendo os sistemas resilientes contra picos de demanda orientados por IA.
Modelos de mundo visam levar a IA de uma simples detecção de padrões para a capacidade de compreender e interagir com o mundo físico. Esse avanço, no entanto, enfrenta desafios potenciais como o atrito de dados e a variação inerente a eles. Pioneiros da IA, como Yann LeCun, estão direcionando investimentos de bilhões para desenvolver modelos que encapsulem interações físicas complexas, ultrapassando as capacidades atuais dos LLM. A luta principal ainda se concentra na obtenção de dados do mundo real, diversos e de alta qualidade, necessários para que esses modelos operem de forma eficaz, o que representa um desafio e uma oportunidade significativa na progressão da IA.
O treinamento de modelos de fronteira depende de redes de supercomputadores confiáveis que possam movimentar dados rapidamente entre GPUs.
Às vezes, estados comportamentais estáveis e auto-reforçadores emergem em grandes modelos de linguagem que resistem à supressão e, por vezes, se espalham para contextos muito distantes daqueles que os produziram.
Os sistemas continuam a melhorar, e teoremas surgem continuamente para explicar por que eles não podem. Ambas as afirmações podem ser verdadeiras, pois geralmente se referem a coisas distintas.
A concepção dos planos de assinatura está sendo desafiada pelas capacidades de produto em constante evolução e pelos novos padrões de uso.
A Moonshot mais que quadruplicou sua avaliação de mercado em apenas alguns meses.
O Legal Agent Benchmark (LAB) da Harvey é uma ferramenta de código aberto projetada para avaliar o desempenho de agentes de IA em diversas tarefas legais.
O Google está testando o compartilhamento de tela e agentes personalizados em seu IDE Antigravity.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
