ARC-AGI-3 foi projetado para avaliar a inteligência agentic por meio de ambientes de raciocínio interativos. Superar esse modelo significaria que um sistema de IA alcança ou excede a eficiência humana em todos os ambientes ao vê-los pela primeira vez. 100% dos ambientes são solucionáveis por humanos no primeiro contato, sem treinamento prévio ou instrução. Atualmente, todos os modelos de raciocínio de IA de fronteira resolvem menos de 1%.

CEVIU News - CEVIU IA - 26 de março de 2026
🧪 CEVIU IA
A Reflection é uma startup que lidera um esforço para criar sistemas de IA dos EUA de acesso livre. É uma das poucas startups ligadas à Nvidia que busca construir uma rede de modelos de IA open source. A empresa está em negociações para levantar US$ 2,5 bilhões com uma valorização de US$ 25 bilhões. Investidores chamam a Reflection de 'DeepSeek do Ocidente', oferecendo uma alternativa aos modelos open source de empresas chinesas.
TurboQuant da Google é um algoritmo de compressão que reduz o impacto de memória de grandes modelos de linguagem enquanto aumenta a velocidade e mantém a precisão. Ele diminui o tamanho do cache de chave-valor, evitando a necessidade de recomputação. Testes iniciais mostram um aumento de desempenho de 8x e uma redução de uso de memória de 6x, sem perda de qualidade. Técnicas de compressão como a TurboQuant podem melhorar a qualidade das saídas de modelos para dispositivos edge sem enviar dados para a nuvem.
Modelos open source estão alcançando a paridade com os modelos de fronteira, fazendo com que o valor dos laboratórios de fronteira pareça superestimado se forem apenas utilitários. Esses laboratórios possuem acordos empresariais, certificações de segurança, distribuição, talento em pesquisa e posicionamento regulatório, mas isso não explica seu moat. As pessoas se concentram na capacidade, mas o que realmente importa para as avaliações é a diferença monetizável, o subconjunto dessa diferença de capacidade pelo qual alguém pagaria um prêmio. A diferença monetizável está diminuindo mais rápido do que a diferença de capacidade.
Os co-fundadores da Manus, Xiao Hong e Ji Yichao, foram informados de que não podem deixar a China enquanto as autoridades revisam a venda de US$ 2,5 bilhões da empresa para a Meta. As primeiras versões da Manus foram criadas por engenheiros de uma empresa chinesa. Uma entidade com sede em Cingapura assumiu as operações posteriormente e transferiu a maioria dos funcionários baseados na China para Cingapura, o que possibilitou a compra pela Meta. As autoridades temem que as ações da Manus possam encorajar outras empresas chinesas a fazer o mesmo e sair do país sem passar por avaliações.
A OpenAI delineou a filosofia e estrutura por trás de sua Model Spec, uma estrutura que define o comportamento desejado do modelo, princípios de segurança e como os sistemas devem seguir instruções e resolver conflitos.
Modelos quantizados são realmente eficazes. A quantização de 16 bits para 8 bits quase não afeta a qualidade — já a quantização de 4 bits é mais perceptível, mas ainda atende cerca de 90% do desempenho do original. Vale a pena experimentar esses modelos, pois são menores e compatíveis com mais sistemas. Este artigo explica como funcionam os parâmetros dos modelos, o que é quantização, como é aplicada na prática e seus efeitos na precisão dos modelos.
O treino final de um modelo é apenas a etapa final de um processo longo e caro. Antes dessa etapa, empresas queimam compute realizando experimentos em várias escalas, gerando dados sintéticos, testando ideias e treinando modelos não lançados. O custo completo do desenvolvimento de um modelo é muito mais alto que o custo do treino final de um modelo de fronteira. A maior parte do gasto está na exploração, não na execução. Empresas que aprendem com a concorrência podem replicar resultados por uma fração do custo original.
A OpenAI lançou um programa público de bug bounty focado no uso indevido de IA e riscos à segurança, expandindo o foco além das vulnerabilidades tradicionais de segurança para incluir cenários de abuso.
Empresas de IA estão mudando de soluções específicas para plataformas amplas, impulsionadas por rápidas mudanças nos modelos.
Manthan Gupta desenvolveu o Auto-Inference-Optimiser para permitir que um agente de IA otimize a velocidade de inferência de LLM enquanto mantém a qualidade fixa no Apple Silicon. O uso de amostragem argmax e simplificação do código de inferência proporcionou os maiores ganhos de throughput, enquanto a maioria das opções de ajuste e quantização do cache KV não tiveram efeito ou até mesmo foram prejudiciais. O projeto destaca que um controle rigoroso e observável é crucial para distinguir ganhos reais de performance de ruídos ou ilusões de benchmark.
O Lyria 3 Pro estende a duração máxima das faixas para três minutos e oferece controle mais preciso sobre a estrutura e personalização das músicas.
Devin, da Cognition, é um engenheiro de software IA capaz de criar software do início ao fim sem intervenção humana. Desde seu lançamento em 2024, é visto como um passo rumo ao sonho de uma máquina que codifica por você, alimentado por um desejo antigo do Vale do Silício. O CEO da Cognition, Scott Wu, acredita que essa tecnologia não marcará o fim da engenharia de software. Em vez de eliminar engenheiros, as ferramentas da Cognition permitirão que eles se concentrem nas partes mais gratificantes do trabalho, poupando-os das tarefas pesadas que consomem a maior parte do tempo tradicionalmente.
Harvey levantou $200 milhões em uma nova rodada liderada por GIC e Sequoia, elevando sua avaliação para $11 bilhões e o financiamento total para mais de $1 bilhão.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
