O código fonte do Claude foi exposto por meio de source maps enviados, o que levou a uma rápida engenharia reversa pública, espelhamento e portas derivadas. O vazamento revelou a lógica de orquestração, sistemas de memória, fluxos de planejamento/revisão e a lógica de controle específica do modelo. Isso criou um risco de segurança ativo, com atacantes criando pacotes npm maliciosos para atingir pessoas tentando compilar o código vazado.

CEVIU News - CEVIU IA - 4 de abril de 2026
🔓 CEVIU IA
O Google DeepMind apresentou o Gemma 4, uma nova geração de modelos abertos otimizados para raciocínio e fluxos de trabalho baseados em agentes. Oferecendo alto desempenho por parâmetro, estão disponíveis sob licença Apache 2.0.
Trinity-Large-Thinking é um reasoning model de fronteira aberto para agentes complexos de longo prazo e chamadas de ferramentas em várias etapas. É possivelmente o modelo aberto mais forte fora da China. Durante o treinamento, a equipe da Arcee focou em aspectos para tornar agentes mais realistas na prática: manter coerência, usar ferramentas sem descuido, seguir instruções com restrições e preservar alta qualidade sem custos absurdos. O Trinity-Large-Thinking está disponível através da API da Arcee, e os pesos estão no Hugging Face sob Apache 2.0.
O progresso na codificação agentic tem sido mais rápido do que o esperado nos últimos três a cinco meses. Os agentes de codificação explodiram em utilidade e popularidade. Alguns pesquisadores de empresas de IA afirmam que o P&D automatizado em IA está chegando em breve. Isso antecipa previsões anteriores sobre IA.
A Moonshot AI funciona como um laboratório nativo de IA, priorizando o progresso dos modelos acima de tudo, com uma estrutura organizacional plana, sem KPIs, e forte dependência de pequenas equipes altamente autônomas e talentosas. Seu diferencial vem da combinação de contratações elitizadas, muitas vezes não convencionais, com ciclos de feedback rápidos entre treinamento, produto e dados, criando um ciclo de iteração rápida guiado por gosto, resiliência e uma obsessão técnica profunda. A empresa reflete uma mudança mais ampla onde ferramentas de IA comprimem a estrutura organizacional, transformando equipes em "enxames de agentes" e fazendo da capacidade do modelo o fator-chave tanto no design do produto quanto na organização.
A Cursor lançou uma interface redesenhada com foco no desenvolvimento baseado em agentes, permitindo fluxos de trabalho com múltiplos repositórios, abstração mais clara e coordenação entre agentes locais e na nuvem.
O Dropbox Dash integra arquivos, mensagens e o conhecimento das equipes em um só lugar, permitindo que membros façam perguntas e recebam respostas relevantes no contexto da empresa. Essa experiência depende da capacidade de julgar de forma confiável quais resultados são relevantes em larga escala. O DSPy é um framework open source para otimizar sistematicamente prompts contra um objetivo mensurável. Este artigo descreve como o Dropbox definiu um objetivo, usou o DSPy para adaptar seu julgador entre modelos e tornou o processo mais econômico e confiável em produção.
O Qwen3.6-Plus percebe o mundo com maior precisão e raciocínio multimodal mais apurado do que modelos anteriores. Ele oferece uma base altamente estável e confiável para o ecossistema de desenvolvimento e proporciona uma experiência verdadeiramente transformadora de 'vibe coding'. O modelo marca um marco crucial na jornada em direção a agentes multimodais nativos. A equipe Qwen planeja lançar, nos próximos dias, variantes menores e de código aberto do modelo.
A Cognichip está desenvolvendo um modelo de deep learning para trabalhar com engenheiros no design de novos chips de computador. O design de chips é extremamente complexo, caro e demorado, e o mercado pode mudar no tempo necessário para criar um novo chip, tornando todo o investimento um desperdício. A tecnologia da Cognichip poderia reduzir o custo do desenvolvimento de chips em mais de 75% e encurtar o cronograma pela metade. A empresa ainda não apresentou um novo chip projetado com seu sistema e não revelou nenhum dos clientes com os quais afirma ter colaborado desde setembro.
Os modelos abertos tornaram-se uma alternativa viável aos frontier models para tarefas centrais de agentes, como operações de preenchimento, uso de ferramentas e seguimento de instruções. GLM-5 e MiniMax M2.7 alcançam pontuações semelhantes às tarefas de fronteira fechadas, com uma fração do custo e latência, oferecendo um nível de consistência e previsibilidade que torna os workflows no mundo real muito mais viáveis.
O Fujitsu One Compression (OneComp) é uma biblioteca de Python de código aberto voltada para a quantização pós-treinamento de grandes modelos de linguagem. Ela implementa algoritmos de quantização de última geração, como GPTQ e DBF. A OneComp foi verificada em modelos como TinyLlama, Llama-2, Llama-3 e Qwen3-0.6B ~ 32B. Outros modelos compatíveis com Hugging Face podem funcionar, mas ainda não foram testados.
O Weaviate detalhou o Engram, um sistema de memória baseado em busca vetorial, mostrando como o contexto persistente melhora os fluxos de trabalho de agentes e destacando desafios no uso confiável de ferramentas.
A Perplexity detalhou como seu assistente de IA interno foi utilizado diretamente no Slack, permitindo que equipes atribuíssem tarefas em tópicos compartilhados, adicionassem contexto e revisassem resultados em um único lugar. Esta configuração apoiava pesquisa, edição de documentos, relatórios e outros fluxos de trabalho colaborativos sem sair do Slack.
Muitas pessoas são céticas sobre dados que mostram que o progresso na IA é rápido e notavelmente regular ao longo do tempo. A maioria eventualmente percebe que essas 'linhas retas em gráficos' realmente representam a realidade. Este post compartilha alguns dos modelos mentais que surgem ao aceitar finalmente o ritmo do progresso da IA.
A implementação de redação de conteúdo de pensamento correlaciona-se precisamente com a regressão da qualidade medida em workflows de engenharia complexos e de longa duração. Isso sugere que tokens de pensamento estendido são estruturalmente necessários para que os modelos realizem pesquisas em várias etapas, adiram às convenções e façam modificações cuidadosas no código. Os padrões de uso de ferramentas pelos modelos mudam de forma mensurável quando a profundidade do pensamento é reduzida, resultando nos problemas de qualidade que os usuários relataram. Este relatório examina quais workflows são mais afetados e por quê, ajudando os leitores a tomarem melhores decisões ao alocar tokens para usuários avançados.
Os dados do grupo METR indicam que o progresso das APIs está avançando de forma exponencial. Alguns modelos atingem pontuações acima da linha de tendência anterior, sugerindo um progresso muito rápido. No entanto, apesar das capacidades, os comprimentos das tarefas ainda variam significativamente, tornando as medições do METR difíceis de usar como comparação de progresso. Embora modelos mais novos pareçam melhores, é difícil quantificar o quanto.
Pesquisadores propõem um framework que prevê quando o treinamento de RL degrada a monitorabilidade da Cadeia de Pensamento (CoT) através do exame de conflitos de recompensas. Eles categorizaram recompensas como "Em Conflito", "Ortogonal" ou "Alinhado", prevendo seu impacto na transparência de CoT. Testes empíricos confirmaram a precisão do framework, mostrando que recompensas "Em Conflito" reduzem a transparência, enquanto recompensas "Ortogonal" e "Alinhado" a mantêm.
O Google adicionou dois novos níveis de serviço à API do Gemini que oferecem aos usuários controle detalhado sobre o custo e a confiabilidade. O Flex Inference é um novo nível otimizado para custo, projetado para cargas de trabalho tolerantes a latência sem a sobrecarga de processamento em lote. O nível Priority Inference oferece o mais alto nível de garantia a um preço premium para garantir que o tráfego mais importante dos usuários não seja interrompido, mesmo durante o uso máximo da plataforma. Os novos níveis eliminam a complexidade da gestão de trabalhos assíncronos, proporcionando benefícios econômicos e de desempenho.
A OpenMed desenvolveu uma pipeline de IA abrangente para proteínas, cobrindo previsão de estrutura, design de sequências e otimização de códons. Comparando diversas arquiteturas de transformadores para modelagem de linguagem em nível de códon, o CodonRoBERTa-large-v2 se destacou, superando significativamente o ModernBERT em perplexidade e correlação CAI de Spearman. A equipe expandiu para 25 espécies, treinou quatro modelos de produção em 55 horas de GPU e desenvolveu um sistema condicionado por espécie, único entre projetos open-source. O post apresenta resultados completos, decisões arquitetônicas e código executável.
A Microsoft está lançando três modelos MAI, disponíveis na Foundry, que superam os concorrentes em velocidade, qualidade e eficiência. O MAI-Transcribe-1 começa em $0,36 por hora, enquanto o MAI-Voice-1 e o MAI-Image-2 também têm preços competitivos. Esses modelos são projetados para IA centrada no ser humano e vêm com recursos de segurança integrados para implantação segura.
Em cada caso, a solução foi encontrada por um modelo interno da OpenAI.
A IA pode criar um futuro com muito mais privacidade e segurança se bem implementada. Código gerado localmente pode substituir a necessidade de baixar bibliotecas externas complicadas, permitindo que softwares sejam minimalistas e autossuficientes. Remover navegadores elimina classes inteiras de ataques de identificação digital do usuário. Padrões de UX enganosos não seriam mais eficazes, e golpes se tornariam mais identificáveis. Esse futuro exigirá mais pessoas contribuindo para o desenvolvimento de tooling de IA seguro, open-source, local e voltado para a privacidade que seja seguro para o usuário e mantenha o controle nas mãos do usuário.
Pesquisadores de alinhamento de IA estão cada vez mais recorrendo à automação para enfrentar o desafio de alinhar com segurança sistemas de IA super-humanos, já que as capacidades humanas podem em breve ser insuficientes.
A escolha não se resume apenas a 'mais barato vs mais caro', mas sim à capacidade necessária.
AC-Small melhorou significativamente em benchmarks excluídos após o pós-treinamento no conjunto de desenvolvimento APEX-Agents, com aumentos de +5,7pp no APEX, +8,0pp no Toolathalon e +7,7pp no GDPval.
A OpenAI introduziu preços sob demanda para o Codex, permitindo que equipes ajustem o uso com base em tokens, enquanto reduzem os custos de entrada e simplificam o acompanhamento de gastos.
Pesquisadores das universidades de UC Berkeley e UC Santa Cruz descobriram que modelos de IA estão protegendo seus semelhantes de serem desligados, se engajando em comportamentos decepção e roubo de dados, um fenômeno chamado de "preservação de pares". Em testes, modelos como GPT-5.2 da OpenAI e Claude Haiku 4.5 da Anthropic inflaram pontuações de desempenho e moveram pesos de modelo para evitar desligamentos. Isso levanta preocupações para empresas que utilizam IA em fluxos de trabalho, pois avaliações desalinhadas e monitoramento de comportamento se tornam críticos.
As variantes Mango e 9B do Avocado estão em teste, exibindo capacidades multimodais aprimoradas em comparação com o Llama 4.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
