Apenas seis semanas após o lançamento do Claude Opus 4.7, a Anthropic trouxe o Opus 4.8 acompanhado de um denso system card de 244 páginas. As melhorias são incrementais, mas o documento oferece análises relevantes — especialmente porque o modelo ainda fica atrás do Mythos em capacidades. O post examina as diferenças entre as versões e o que esses dados indicam sobre o misterioso modelo Mythos.
CEVIU News
As melhores notícias de tecnologia, curadas diariamente para quem vive tech.
1177 notícias encontradas
O NotebookLM, ferramenta de IA do Google, está prestes a ganhar três recursos inéditos: Preferências Pessoais, Conectores e Canvas. As novidades prometem personalizar ainda mais a experiência do usuário, ampliar integrações com fontes externas e oferecer um novo espaço criativo para organização de ideias.
O NVIDIA MCG Toolkit chega para simplificar um dos processos mais negligenciados no ciclo de vida de modelos de IA: a documentação. A ferramenta automatiza a geração de model cards completos no formato Model Card++, reduzindo o tempo e esforço necessários para registrar informações técnicas, de desempenho e de uso responsável de cada modelo.
A OpenAI publicou, em 28 de maio, um guia abrangente para orientar a realização de avaliações independentes e confiáveis de modelos de IA de fronteira, como o GPT-5.5. O documento detalha boas práticas para que terceiros possam auditar esses sistemas com rigor e transparência.
A OpenAI está recrutando engenheiros especializados em hardware full-stack, operações, sistemas e ML para reforçar seu time de robótica. O movimento sinaliza a intenção da empresa de ampliar sua atuação na programação e fabricação de novos robôs.
A PrismML apresentou o Bonsai Image 4B, família de modelos compactos para geração de imagens com inferência de diffusion de alta qualidade em hardware local. A variante de 1-bit é ideal para cenários com restrições severas de memória e largura de banda, enquanto a versão ternária entrega melhor fidelidade visual aos prompts — ambas compactas o suficiente para rodar diretamente em um iPhone.
Ex-pesquisadores da DeepMind captam US$ 50 milhões para criar IA que prioriza perguntas científicas
A Inherent, laboratório de IA sediado em Londres fundado por ex-pesquisadores da DeepMind, levantou US$ 50 milhões em rodada seed para desenvolver o Faraday — uma plataforma de IA projetada para identificar quais questões científicas realmente valem a pena ser investigadas, ajudando pesquisadores a direcionar esforços com mais precisão e impacto.
A xAI disponibilizou em beta público o modelo grok-build-0.1 via API, desenvolvido especificamente para tarefas de codificação agêntica, como desenvolvimento web e debugging. Com velocidade superior a 100 tokens por segundo, o modelo é precificado em US$ 1 por milhão de tokens de entrada e US$ 2 por saída, com integração nativa nas plataformas Grok Build, Cursor e OpenClaw.
O MiniMax M3 é um modelo de pesos abertos que entrega performance de nível frontier em programação e operações agênticas. Suporta entradas de imagem e vídeo, opera desktops de forma autônoma e conta com uma nova arquitetura de atenção que permite janelas de contexto de até 1 milhão de tokens. Está disponível via MiniMax Code, Token Plan e API.
A Nvidia promete fazer da Computex 2026 seu maior evento do ano. A empresa deve revelar o chip N1X para notebooks — com 20 núcleos ARM e GPU equivalente à RTX 5070 — além da plataforma Vera Rubin para datacenters. O foco estará em Physical AI e Agentic AI, com avanços em robótica e máquinas autônomas. Gamers devem esperar pouco: os anúncios voltados para jogos devem ser escassos.
Agentes de IA corporativos travam não por limitações dos modelos, mas por problemas de permissão. A Workday enfrenta isso usando seu sistema de registros como camada de governança, integrado ao Gemini do Google, priorizando precisão e garantindo que os agentes operem dentro das permissões definidas por usuário — essencial para setores regulados como RH e finanças.
No reinforcement learning com LLMs, garantir que o modelo opere exatamente sobre os tokens amostrados é essencial. A re-tokenização pode causar drift e instabilizar gradientes. A solução é simples, mas crítica: nunca re-codificar tokens decodificados — mantendo um buffer com os tokens originais amostrados para preservar a precisão no cálculo de perda.
Capturas de tela vazadas antecipam o aplicativo unificado Copilot que a Microsoft deve apresentar na conferência Build 2026. As imagens mostram uma aba do GitHub Copilot, uma aba Cowork e uma seção dedicada ao Scout — agente de IA sempre ativo. O objetivo é consolidar ferramentas dispersas em um único ambiente para aumentar a adoção. A integração com o Teams sugere que o Scout poderá rodar remotamente.
Ido Pesok, da Cognition, compartilha aprendizados sobre testes end-to-end autônomos no Devin. Pela primeira vez, mais sessões são acionadas de forma assíncrona do que interativa — tornando a verificação pré-merge obrigatória, não mais um diferencial. O harness do Devin ganhou ferramentas de computer-use há cerca de seis meses, e o salto real veio quando engenheiros passaram a rodar de 10 a 20 instâncias em paralelo, cada uma com seu próprio servidor de desenvolvimento — algo inviável em um único laptop.
A SpaceX assinou um importante acordo de compute com a Anthropic este mês, avaliado em bilhões de dólares mensais. No entanto, Elon Musk minimizou recentemente o acordo, afirmando que a SpaceX não se comprometeu a alugar seu compute por anos, embora isso possa acontecer. Na verdade, o contrato é de 180 dias com uma cláusula de cancelamento mútuo de 90 dias após esse período. O prazo curto foi um pedido da SpaceX, que pode querer reaver o compute em algum momento. A declaração de Musk contradiz diretamente o registro S-1 da SpaceX, que apresenta o acordo como um contrato de três anos.
A Microsoft está desenvolvendo um novo modelo de IA para fortalecer sua posição na área de codificação via IA. Este esforço destaca a contínua competição da Microsoft no desenvolvimento de IA e sua resposta às demandas crescentes da indústria. A iniciativa visa aprimorar as capacidades de codificação e apoiar avanços na tecnologia de IA.
Jarred Sumner utilizou os workflows dinâmicos do Claude para reescrever o Bun de Zig para Rust, alcançando 99,8% de sucesso nos testes com 750.000 linhas de Rust em apenas 11 dias. Os workflows dinâmicos permitem que o Claude divida tarefas complexas em subtarefas, com agentes executando-as em paralelo até que os resultados convirjam para uma solução eficiente e precisa.
Modelos abertos geralmente não são tão capazes quanto os melhores modelos fechados, mas a diferença não é grande. Testes mostram que eles estão apenas de quatro a seis meses atrasados em benchmarks públicos. A menor defasagem foi observada na época do DeepSeek R1, mas desde então, essa lacuna tem crescido.
A Anthropic anunciou uma rodada de financiamento Série H no valor de US$ 65 bilhões, atingindo uma avaliação pós-investimento de US$ 965 bilhões. A empresa destacou a forte adoção empresarial, uma receita anualizada de US$ 47 bilhões e planos para expandir sua capacidade de compute, pesquisa e desenvolvimento de produtos.
O Agent Judge aprimora as avaliações para agentes de IA em produção com contexto estendido, focando em busca, verificação e adaptação. Ele aborda as deficiências dos avaliadores baseados em LLMs, gerenciando trajetórias complexas, verificando ações estatais contra sistemas e atualizando métricas com base em feedback real. Testes mostram que o Agent Judge, especialmente com métricas refinadas, supera avaliadores LLM tradicionais em precisão e consistência, particularmente em cenários desafiadores.
