CEVIU News

CEVIU News - CEVIU IA - 26 de maio de 2026

11 notícias26 de maio de 2026CEVIU IA
Compartilhar:

💻 CEVIU IA

O Grok Build, um novo agente de codificação e interface de linha de comando (CLI), foi lançado em beta para assinantes do SuperGrok e X Premium Plus. Ele oferece suporte a projetos de codificação complexos, permitindo revisões no modo de planejamento e se integrando de forma contínua às convenções do usuário. Os usuários podem usar as capacidades do Grok para automação e processamento paralelo através do modo headless e de subagentes especializados.

O Papa Leão XIV divulgou recentemente um documento sobre a ética da integração da IA na sociedade moderna. O texto aborda o impacto ambiental da tecnologia, os riscos de sistemas algorítmicos que tomam decisões que afetam a vida das pessoas, e discute como a IA amplifica o poder daqueles com mais recursos, entre outros pontos. Um link para o documento está disponível no artigo, que apresenta um estilo de escrita acessível, mesmo para não-católicos.

Zvi avalia o Gemini 3.5 Flash como o melhor modelo em seu patamar de velocidade, embora não seja tão convincente quanto o Opus 4.7 ou GPT-5.5 em workloads que não são sensíveis à latência. O Google o posiciona como um "daily driver" para fluxos de trabalho "agentic", superando o 3.1 Pro em Terminal-Bench e MCP Atlas, enquanto roda 4x mais rápido.

A destilação on-policy treina um modelo aluno usando trajetórias amostradas de sua própria policy, enquanto um modelo professor fornece supervisão densa em nível de token por meio de regularização baseada em KL. Isso resolve a incompatibilidade de distribuição entre treinamento e inferência que afeta os métodos off-policy. Sua formulação canônica unifica as perdas forward-KL, reverse-KL e JSD, com a reverse-KL emergindo como o padrão para alunos menores em busca de modos específicos. A técnica pode ser implementada com uma simples troca de código do modelo regularizador em um stack de RL como Tinker.

O BenchBench é um novo benchmark que avalia a capacidade dos modelos de IA de criar outros benchmarks. Ele funciona como uma ótima métrica tanto para as habilidades dos modelos quanto para testar sua autoconsciência, focando na criatividade e não apenas na capacidade de resolução de problemas. Nos testes, apenas o GPT 5.2 se destacou, enquanto outros modelos, como o Opus 4.6 e o GPT 5.5, tiveram dificuldades em desenvolver um benchmark realmente útil e desafiador para terceiros.

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser