O Grok Build, um novo agente de codificação e interface de linha de comando (CLI), foi lançado em beta para assinantes do SuperGrok e X Premium Plus. Ele oferece suporte a projetos de codificação complexos, permitindo revisões no modo de planejamento e se integrando de forma contínua às convenções do usuário. Os usuários podem usar as capacidades do Grok para automação e processamento paralelo através do modo headless e de subagentes especializados.

CEVIU News - CEVIU IA - 26 de maio de 2026
💻 CEVIU IA
O mercado está se tornando uma stack de problemas de memória. O hardware muda lentamente, enquanto o software e as arquiteturas de modelo podem evoluir rapidamente. Empresas de hardware precisarão construir arquiteturas que permaneçam úteis à medida que o gargalo se desloca.
O Papa Leão XIV divulgou recentemente um documento sobre a ética da integração da IA na sociedade moderna. O texto aborda o impacto ambiental da tecnologia, os riscos de sistemas algorítmicos que tomam decisões que afetam a vida das pessoas, e discute como a IA amplifica o poder daqueles com mais recursos, entre outros pontos. Um link para o documento está disponível no artigo, que apresenta um estilo de escrita acessível, mesmo para não-católicos.
Zvi avalia o Gemini 3.5 Flash como o melhor modelo em seu patamar de velocidade, embora não seja tão convincente quanto o Opus 4.7 ou GPT-5.5 em workloads que não são sensíveis à latência. O Google o posiciona como um "daily driver" para fluxos de trabalho "agentic", superando o 3.1 Pro em Terminal-Bench e MCP Atlas, enquanto roda 4x mais rápido.
A destilação on-policy treina um modelo aluno usando trajetórias amostradas de sua própria policy, enquanto um modelo professor fornece supervisão densa em nível de token por meio de regularização baseada em KL. Isso resolve a incompatibilidade de distribuição entre treinamento e inferência que afeta os métodos off-policy. Sua formulação canônica unifica as perdas forward-KL, reverse-KL e JSD, com a reverse-KL emergindo como o padrão para alunos menores em busca de modos específicos. A técnica pode ser implementada com uma simples troca de código do modelo regularizador em um stack de RL como Tinker.
O BenchBench é um novo benchmark que avalia a capacidade dos modelos de IA de criar outros benchmarks. Ele funciona como uma ótima métrica tanto para as habilidades dos modelos quanto para testar sua autoconsciência, focando na criatividade e não apenas na capacidade de resolução de problemas. Nos testes, apenas o GPT 5.2 se destacou, enquanto outros modelos, como o Opus 4.6 e o GPT 5.5, tiveram dificuldades em desenvolver um benchmark realmente útil e desafiador para terceiros.
O AlphaProof Nexus do Google DeepMind resolveu autonomamente nove dos 353 problemas Erdős abertos, incluindo questões sem resposta por décadas, com custos de inference de algumas centenas de dólares por problema.
O GPT-5.6 parece ter um forte foco em raciocínio multi-etapas mais robusto, melhores fluxos de trabalho agentic e capacidades aprimoradas de geração de frontend.
Os mercados de previsão não conseguiram concretizar a visão de Robin Hanson de 1990 para o "Idea Futures".
A DeepSeek pretende viabilizar um ecossistema chinês de hardware de IA avaliado em US$10 trilhões e alcançar uma avaliação de US$1 trilhão para si mesma.
A Apple planeja aprimorar suas ferramentas de imagem baseadas em IA, Genmoji e Image Playground, no iOS 27, com foco em elevar a qualidade visual e o realismo.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
