CEVIU News

As melhores notícias de tecnologia, curadas diariamente para quem vive tech.

1177 notícias encontradas

Apenas seis semanas após o lançamento do Claude Opus 4.7, a Anthropic trouxe o Opus 4.8 acompanhado de um denso system card de 244 páginas. As melhorias são incrementais, mas o documento oferece análises relevantes — especialmente porque o modelo ainda fica atrás do Mythos em capacidades. O post examina as diferenças entre as versões e o que esses dados indicam sobre o misterioso modelo Mythos.

A PrismML apresentou o Bonsai Image 4B, família de modelos compactos para geração de imagens com inferência de diffusion de alta qualidade em hardware local. A variante de 1-bit é ideal para cenários com restrições severas de memória e largura de banda, enquanto a versão ternária entrega melhor fidelidade visual aos prompts — ambas compactas o suficiente para rodar diretamente em um iPhone.

A Inherent, laboratório de IA sediado em Londres fundado por ex-pesquisadores da DeepMind, levantou US$ 50 milhões em rodada seed para desenvolver o Faraday — uma plataforma de IA projetada para identificar quais questões científicas realmente valem a pena ser investigadas, ajudando pesquisadores a direcionar esforços com mais precisão e impacto.

A xAI disponibilizou em beta público o modelo grok-build-0.1 via API, desenvolvido especificamente para tarefas de codificação agêntica, como desenvolvimento web e debugging. Com velocidade superior a 100 tokens por segundo, o modelo é precificado em US$ 1 por milhão de tokens de entrada e US$ 2 por saída, com integração nativa nas plataformas Grok Build, Cursor e OpenClaw.

A Nvidia promete fazer da Computex 2026 seu maior evento do ano. A empresa deve revelar o chip N1X para notebooks — com 20 núcleos ARM e GPU equivalente à RTX 5070 — além da plataforma Vera Rubin para datacenters. O foco estará em Physical AI e Agentic AI, com avanços em robótica e máquinas autônomas. Gamers devem esperar pouco: os anúncios voltados para jogos devem ser escassos.

Agentes de IA corporativos travam não por limitações dos modelos, mas por problemas de permissão. A Workday enfrenta isso usando seu sistema de registros como camada de governança, integrado ao Gemini do Google, priorizando precisão e garantindo que os agentes operem dentro das permissões definidas por usuário — essencial para setores regulados como RH e finanças.

No reinforcement learning com LLMs, garantir que o modelo opere exatamente sobre os tokens amostrados é essencial. A re-tokenização pode causar drift e instabilizar gradientes. A solução é simples, mas crítica: nunca re-codificar tokens decodificados — mantendo um buffer com os tokens originais amostrados para preservar a precisão no cálculo de perda.

Capturas de tela vazadas antecipam o aplicativo unificado Copilot que a Microsoft deve apresentar na conferência Build 2026. As imagens mostram uma aba do GitHub Copilot, uma aba Cowork e uma seção dedicada ao Scout — agente de IA sempre ativo. O objetivo é consolidar ferramentas dispersas em um único ambiente para aumentar a adoção. A integração com o Teams sugere que o Scout poderá rodar remotamente.

Ido Pesok, da Cognition, compartilha aprendizados sobre testes end-to-end autônomos no Devin. Pela primeira vez, mais sessões são acionadas de forma assíncrona do que interativa — tornando a verificação pré-merge obrigatória, não mais um diferencial. O harness do Devin ganhou ferramentas de computer-use há cerca de seis meses, e o salto real veio quando engenheiros passaram a rodar de 10 a 20 instâncias em paralelo, cada uma com seu próprio servidor de desenvolvimento — algo inviável em um único laptop.

A SpaceX assinou um importante acordo de compute com a Anthropic este mês, avaliado em bilhões de dólares mensais. No entanto, Elon Musk minimizou recentemente o acordo, afirmando que a SpaceX não se comprometeu a alugar seu compute por anos, embora isso possa acontecer. Na verdade, o contrato é de 180 dias com uma cláusula de cancelamento mútuo de 90 dias após esse período. O prazo curto foi um pedido da SpaceX, que pode querer reaver o compute em algum momento. A declaração de Musk contradiz diretamente o registro S-1 da SpaceX, que apresenta o acordo como um contrato de três anos.

Jarred Sumner utilizou os workflows dinâmicos do Claude para reescrever o Bun de Zig para Rust, alcançando 99,8% de sucesso nos testes com 750.000 linhas de Rust em apenas 11 dias. Os workflows dinâmicos permitem que o Claude divida tarefas complexas em subtarefas, com agentes executando-as em paralelo até que os resultados convirjam para uma solução eficiente e precisa.

O Agent Judge aprimora as avaliações para agentes de IA em produção com contexto estendido, focando em busca, verificação e adaptação. Ele aborda as deficiências dos avaliadores baseados em LLMs, gerenciando trajetórias complexas, verificando ações estatais contra sistemas e atualizando métricas com base em feedback real. Testes mostram que o Agent Judge, especialmente com métricas refinadas, supera avaliadores LLM tradicionais em precisão e consistência, particularmente em cenários desafiadores.