A Anthropic lançou o Claude Opus 4.8, que apresenta melhorias significativas em seus benchmarks de desempenho. A atualização inclui controles ajustáveis de esforço, workflows dinâmicos no Claude Code e um modo mais rápido que se tornou consideravelmente mais barato, otimizando a eficiência e o custo de operação da ferramenta.

CEVIU News - CEVIU IA - 30 de maio de 2026
🚀 CEVIU IA
A Microsoft está desenvolvendo um novo modelo de IA para fortalecer sua posição na área de codificação via IA. Este esforço destaca a contínua competição da Microsoft no desenvolvimento de IA e sua resposta às demandas crescentes da indústria. A iniciativa visa aprimorar as capacidades de codificação e apoiar avanços na tecnologia de IA.
A Anthropic anunciou uma rodada de financiamento Série H no valor de US$ 65 bilhões, atingindo uma avaliação pós-investimento de US$ 965 bilhões. A empresa destacou a forte adoção empresarial, uma receita anualizada de US$ 47 bilhões e planos para expandir sua capacidade de compute, pesquisa e desenvolvimento de produtos.
A SpaceX assinou um importante acordo de compute com a Anthropic este mês, avaliado em bilhões de dólares mensais. No entanto, Elon Musk minimizou recentemente o acordo, afirmando que a SpaceX não se comprometeu a alugar seu compute por anos, embora isso possa acontecer. Na verdade, o contrato é de 180 dias com uma cláusula de cancelamento mútuo de 90 dias após esse período. O prazo curto foi um pedido da SpaceX, que pode querer reaver o compute em algum momento. A declaração de Musk contradiz diretamente o registro S-1 da SpaceX, que apresenta o acordo como um contrato de três anos.
O Agent Judge aprimora as avaliações para agentes de IA em produção com contexto estendido, focando em busca, verificação e adaptação. Ele aborda as deficiências dos avaliadores baseados em LLMs, gerenciando trajetórias complexas, verificando ações estatais contra sistemas e atualizando métricas com base em feedback real. Testes mostram que o Agent Judge, especialmente com métricas refinadas, supera avaliadores LLM tradicionais em precisão e consistência, particularmente em cenários desafiadores.
Modelos abertos geralmente não são tão capazes quanto os melhores modelos fechados, mas a diferença não é grande. Testes mostram que eles estão apenas de quatro a seis meses atrasados em benchmarks públicos. A menor defasagem foi observada na época do DeepSeek R1, mas desde então, essa lacuna tem crescido.
Jarred Sumner utilizou os workflows dinâmicos do Claude para reescrever o Bun de Zig para Rust, alcançando 99,8% de sucesso nos testes com 750.000 linhas de Rust em apenas 11 dias. Os workflows dinâmicos permitem que o Claude divida tarefas complexas em subtarefas, com agentes executando-as em paralelo até que os resultados convirjam para uma solução eficiente e precisa.
Modelos de IA agora utilizam mais contexto para compreender bases de código, o que resulta em redução de custos, já que os tokens de entrada e os de leitura de cache são mais baratos do que os tokens de saída. Essa abordagem orientada pelo contexto melhora a calibração do código, aumentando a produtividade do desenvolvedor e as taxas de sobrevivência de diffs.
Manter a rede inteira na memória de uma só vez é o motivo pelo qual o treinamento de IA está atingindo um limite de recursos. A Sakana Labs encontrou uma nova maneira de dividir a rede em blocos e treiná-los independentemente. O truque foi tratar o forward pass da rede como um modelo diffusion que remove ruído de um sinal. Isso reduz drasticamente a memória necessária para treinar modelos profundos.
O NVIDIA γ-World é um world model generativo que suporta agentes controláveis independentemente e com simetria de permutação. Ele entrega rollouts em tempo real com generalização zero-shot, expandindo de configurações de dois jogadores para quatro jogadores sem necessidade de treinamento adicional.
A MiniMax divulgou um novo relatório técnico aprofundado sobre o desenvolvimento de sua popular série de modelos de linguagem M2, detalhando inovações de engenharia e abordagens inteligentes. O relatório também apresenta uma nova abordagem de sparse attention que será utilizada na próxima série de modelos da MiniMax, prometendo um aumento de até 15.6 vezes na velocidade de decodificação em contextos longos. Com os futuros modelos M3 da MiniMax, o deployment de agentes de IA com contexto ultra-longo se tornará economicamente viável.
Asuka Zheng argumenta que o pânico de "estamos ficando sem dados de treinamento" ignora a real dinâmica do mercado de dados, citando seu próprio projeto de substituição de SRE que treinou dois modelos de mundo até estagnar porque trajetórias de incidentes de longo horizonte, de ponta a ponta, desde a primeira anomalia até a resolução completa, não existiam como um dataset.
O stack interno de treinamento de IA da SpaceX faz uso intensivo de paralelismo de pipeline, mapeando-o exatamente para 220 mil GB300s com NICs de 800G, buscando a máxima proximidade com o bare metal. Essa abordagem pode resultar em uma melhoria de velocidade superior a uma ordem de magnitude. O próximo objetivo da SpaceX é desenvolver o stack de inference em C para RL de alta velocidade simultânea em um grande bloco de GB300s.
A ByteDance procurou diversos parceiros externos para colaborar no design de um novo chip, visando otimizar o suporte à sua infraestrutura de IA.
A OpenAI divulgou um framework de governança detalhando como suas práticas de safety e segurança se alinham às regulamentações emergentes, abordando gestão de riscos, relatórios de modelos, resposta a incidentes e supervisão para sistemas avançados de IA.
A Mistral IA planeja projetar chips personalizados para controlar sua infraestrutura e reduzir custos de implementação, à medida que expande sua presença em data centers na Europa.
O "Project Lightwell" da IBM visa estabelecer um clearinghouse corporativo confiável, atuando como uma camada de coordenação de segurança. Seu objetivo é auxiliar empresas a integrar patches de segurança diretamente em suas cadeias de suprimentos de software existentes, com validação de nível corporativo e gerenciamento de ciclo de vida.
A receita do Boston Consulting Group cresceu 7% no último ano, e seu quadro de funcionários está aumentando devido à necessidade contínua das empresas que buscam ajuda para implementar a IA.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
