A Cursor lançou o Composer 2.5, uma versão atualizada de seu agente de codificação. Este agente foi treinado utilizando uma combinação de aprendizado por reforço direcionado, dados sintéticos e novas técnicas de treinamento distribuído, visando otimizar sua performance.

CEVIU News - CEVIU IA - 20 de maio de 2026
👨💻 CEVIU IA
O Google está implementando uma nova opção de 'Thinking level' para o Gemini. A opção já apareceu para alguns usuários ao selecionar Fast ou Gemini 3.1 Pro. Além disso, o Google prepara a adição de mais integrações com aplicativos de terceiros no Gemini, com suporte para Canva, Instacart e OpenTable aparentemente a caminho.
O Google lançou o Gemini 3.5 Flash, um novo modelo focado em workflows agentic, codificação e execução de tarefas de longo prazo. O lançamento também expandiu o acesso ao Gemini em diversas plataformas, incluindo Busca, ferramentas empresariais, Android Studio e as plataformas de desenvolvedores do Google.
A Anthropic adquiriu a startup de ferramentas para desenvolvedores Stainless, cuja plataforma de automação de SDK era amplamente utilizada por empresas de IA, incluindo OpenAI, Google e Cloudflare.
A OpenAI divulgou uma prévia de uma nova experiência de finanças pessoais no ChatGPT, disponível para usuários Pro nos EUA. O recurso permite que os usuários conectem suas contas financeiras de forma segura, visualizem painéis de gastos e façam perguntas com base em seu contexto e objetivos financeiros.
Andrej Karpathy anunciou sua entrada na Anthropic, afirmando que os próximos anos na "frontier" dos LLMs serão especialmente formativos para seu retorno à pesquisa e desenvolvimento. Karpathy destacou que continua apaixonado por educação e planeja retomar esse trabalho futuramente, sinalizando que a mudança é focada em pesquisa e não um afastamento permanente do ensino.
O Qwen3.7 Preview já está disponível na Arena para capacidades de Texto e Visão. O modelo Qwen3.7 Max Preview alcançou a 13ª posição geral na Text Arena, enquanto o Qwen3.7 Plus Preview se classificou como o 16º na Vision Arena.
O Claude Code está sendo usado em produção em várias grandes bases de código em organizações com milhares de desenvolvedores. Esses ambientes apresentam desafios que bases de código menores não possuem. Este artigo aborda padrões que a Anthropic observou e que levaram à adoção bem-sucedida do Claude Code em escala, incluindo seu uso em monorepos com milhões de linhas, sistemas legados construídos ao longo de décadas e microservices em repositórios separados.
A nova oferta de Capacidade Garantida da OpenAI permite que clientes assegurem acesso de longo prazo a compute para alimentar produtos de IA, agentes e workflows. Clientes podem escolher entre compromissos de um, dois e três anos, com descontos baseados na duração do compromisso. A empresa oferecerá a Capacidade Garantida até esgotar sua alocação atual e planeja oferecê-la novamente no futuro.
A censura política implementada no Qwen3.5-9B reside em um pequeno circuito nos pesos do modelo, que pode ser lido e desativado. O conhecimento factual já está presente no pré-treinamento, e o comportamento de censura é sobreposto a esses fatos. O modelo não perde o conhecimento, mas aprende a contorná-lo.
A OpenAI está desenvolvendo uma funcionalidade que permitirá ao seu agente de codificação, o Codex, operar aplicativos do macOS através do Computer Use, mesmo quando um laptop estiver bloqueado ou em modo de suspensão. Atualmente, o Computer Use requer uma sessão desbloqueada e ativa para visualizar a tela, mover o cursor e digitar. A remoção dessa restrição permitirá que os usuários direcionem seus agentes sem a necessidade de retornar fisicamente às suas máquinas para fazer login primeiro. A data de lançamento do recurso ainda não foi divulgada.
No I/O 2026, o Google apresentou como os modelos Gemini estão sendo integrados em produtos de consumo, ferramentas criativas e plataformas de desenvolvedores. A empresa também revelou que o uso mensal de token em seus sistemas de IA cresceu para mais de 3,2 quatrilhões.
A avaliação de LLMs mudou de benchmarks estáticos para sistemas de agentes mais dinâmicos e realistas. Uma avaliação eficaz agora exige 'harnesses' realistas para testar agentes em ambientes complexos e por longos períodos. Isso é crucial, pois os agentes estão assumindo papéis de alta responsabilidade, como programação e medicina, o que requer medição rigorosa de desempenho e avaliação orientada a resultados.
Se você prevê que precisará de um cache antes de 62.5 minutos, atualize-o. Caso contrário, deixe-o expirar. Esse número permanece constante entre os modelos e não muda, independentemente do tamanho do cache. O valor em dólares pode variar, mas o ponto de decisão é sempre o mesmo.
A ideia de uma "meia-vida de modelo" — que os lançamentos de modelos de IA se tornariam cada vez mais rápidos, com o tempo de lançamento caindo pela metade a cada seis meses — não se sustenta sob análise. Embora o ritmo de lançamentos tenha de fato acelerado, essa taxa de redução não tem sido sustentada. Este artigo examina as datas de lançamento de vários dos modelos mais conhecidos e apresenta previsões para os próximos lançamentos, buscando um entendimento mais realista do ciclo de inovação.
Modelos de linguagem (LMs) demonstram mudanças imprevisíveis entre repetição de padrões e exibição de inteligência adaptativa durante o pré-treinamento, um fenômeno chamado "mode-hopping". Esse comportamento não pode ser corrigido por técnicas de otimização padrão e se manifesta como uma competição pela capacidade do modelo, influenciada pelos dados de cada janela de treinamento. Pesquisadores propõem aproveitar essas dinâmicas para selecionar melhor os checkpoints de pré-treinamento, organizar dados para stable generalization e avaliar métricas que prevejam o comportamento dos LMs.
Laboratórios de IA estão travando uma guerra contínua pelos recursos de GPU. A demanda e a oferta atuais indicam que a infraestrutura que impulsiona a IA pode não ser suficiente, e escalar GPUs não aumenta o poder computacional de forma linear. A eficiência torna-se crucial em larga escala, dada a oferta finita.
A riqueza do HTML permite transmitir informações complexas de forma mais eficaz do que o Markdown, incluindo layouts, tabelas de dados e elementos interativos. Ele melhora a legibilidade ao organizar especificações em documentos bem estruturados e de fácil navegação, além de oferecer melhores capacidades de compartilhamento e interação. O Claude Code utiliza HTML para assimilar eficientemente o contexto de diversas fontes, auxiliando em especificações, prototipagem de design e na criação de interfaces de edição personalizadas com maior engajamento e clareza.
O NVIDIA Cosmos Predict 2.5, capaz de gerar vídeos a partir de texto, está sendo adaptado para tarefas específicas como manipulação robótica. Isso é feito usando LoRA/DoRA para injetar adaptadores treináveis, minimizando o uso de memória. Esses métodos permitem um fine-tuning eficiente em uma única GPU, evitando o "esquecimento catastrófico" enquanto geram trajetórias sintéticas rapidamente. O fine-tuning com LoRA e DoRA melhora significativamente a qualidade do vídeo, com LoRA sendo mais adequado para condições de memória restrita e DoRA preferível para lidar com instabilidade de treinamento.
A portabilidade de kernel em IA é estruturalmente impossível porque o Pallas da TPU, o CuTile e o CUTLASS da NVIDIA, o NKI da AWS, o FlyDSL da AMD e o tt-Metalium da Tenstorrent expõem conceitos específicos de hardware que nenhuma DSL universal pode unificar. A evidência é que o MoE grouped matmul do MaxText é implementado em 282 linhas de Pallas na TPU, enquanto o equivalente do Flashinfer para Blackwell SM100 requer 4 milhões de linhas de CUDA gerado, sem código compartilhado, pois os próprios algoritmos divergem entre hardwares.
A nova família de modelos OlmoEarth v1.1 reduz os custos de compute em até 3X, mantendo o mesmo desempenho, tornando o mapeamento em escala planetária mais acessível. Os modelos processam dados de sensoriamento remoto de forma eficiente, otimizando os comprimentos das sequências de token, o que é crucial para diminuir os custos computacionais. As melhorias metodológicas permitem um desempenho similar ao da versão original com significativamente menos compute, beneficiando desenvolvedores e aprimorando a pesquisa científica em sensoriamento remoto.
Os primeiros CPUs Nvidia Vera chegaram recentemente à Anthropic, OpenAI, SpaceXAI e Oracle. A entrega foi feita pessoalmente por Ian Buck, vice-presidente de Hyperscale e High-Performance Computing da Nvidia. O Vera apresenta 88 núcleos Olympus personalizados projetados pela Nvidia, largura de banda de memória de 1,2 TB/s e um desempenho por núcleo 50% mais rápido. Ele atua como processador host para o Vera Rubin NVL72, que se conecta a um par de GPUs Rubin via NVLink-C2C de segunda geração da Nvidia.
As execuções de pré-treinamento frequentemente falham. Este artigo explora todas as formas pelas quais as coisas podem dar errado e por que o treinamento é uma operação tão precária. Os principais culpados parecem ser a quebra de causalidade e a adição de viés.
Oz é um control plane multi-harness para agentes em cloud, com suporte a Claude Code, Codex e Warp Agent. Ele oferece orquestração automática multiagente, Agent Memory inter-harness e controles aprimorados de custo e uso. Além disso, Oz proporciona opções expandidas de self-hosting e recursos de governança aprimorados, simplificando a gestão e a implantação de agentes.
O processo de Elon Musk contra Sam Altman e a OpenAI foi indeferido. Um júri decidiu que Musk esperou tempo demais para entrar com a ação judicial. Musk afirma que planeja recorrer.
O tamanho do KV-cache, o tráfego de memória e o custo da attention rapidamente se tornam as principais restrições à medida que modelos de raciocínio e fluxos de trabalho de agentes mantêm mais tokens por mais tempo. Desenvolvedores de LLMs estão adicionando um número crescente de truques arquitetônicos para reduzir custos. A maioria das mudanças parece pequenos ajustes, mas algumas são alterações de design bastante intrincadas. Este artigo examina essas mudanças arquitetônicas com foco no que muda dentro do bloco transformer, residual stream, KV cache e computação de attention.
Seis novos rerankers CrossEncoder Ettin, construídos com os encoders Ettin ModernBERT, foram lançados, oferecendo modelos de 17 milhões a 1 bilhão de parâmetros. Treinados com pointwise MSE distillation a partir de um teacher robusto de 1,54 bilhão de parâmetros, esses modelos proporcionam melhorias significativas na precisão em comparação com modelos legados, ao mesmo tempo que aumentam a velocidade, especialmente com Flash Attention 2. Eles se destacam pela eficiência em sistemas retrieve-then-rerank e superam modelos como o ms-marco-MiniLM-L12-v2 nos benchmarks MTEB e NanoBEIR.
A xAI lançou o recurso "Skills" para o seu modelo Grok, que permite aos usuários ensinarem funções específicas uma única vez. Grok então retém e aplica esse aprendizado em interações futuras, abrangendo plataformas web, iOS e Android.
O Lighthouse Attention, um mecanismo hierárquico de attention baseado em seleção, é até 17 vezes mais rápido em passes forward e backward do que os modelos de attention padrão em contextos grandes. Ele utiliza FlashAttention em uma sub-sequência densa, garantindo eficiência e compatibilidade com melhorias existentes. Ao possibilitar o treinamento eficiente de modelos com contexto longo e manter a competência de um dense model, o Lighthouse Attention alcança um aumento de velocidade de 1.4x a 1.7x no pré-treinamento, enquanto reduz os custos computacionais.
Este post apresenta um padrão detalhado para a construção de bases de conhecimento pessoais utilizando Large Language Models (LLMs).
Os fundadores da Runway acreditam que a próxima forma de IA será construída a partir de modelos de vídeo e modelos de mundo que aprendem como o mundo funciona. A empresa está treinando modelos diretamente em dados de observação para alcançar a próxima fronteira da IA. A Runway foi uma das primeiras a desenvolver a geração de vídeo por IA, mas os modelos de mundo representam uma corrida diferente, com concorrentes de grande porte. A empresa já levantou US$ 860 milhões, mas está competindo contra grandes players como OpenAI e Google.
O Kimi K2.6, um modelo de trilhões de parâmetros, demonstrou o desempenho mais rápido já medido para um modelo frontier pela Artificial Analysis, atingindo cerca de 1.000 tokens por segundo.
O Lovable agora permite que os usuários criem 'skills', que são instruções baseadas em markdown e totalmente reutilizáveis. Este recurso visa eliminar a necessidade de explicações repetitivas, otimizando o fluxo de trabalho ao encapsular comandos e procedimentos comuns em módulos facilmente acessíveis.
O boom da IA criou uma divisão de riqueza, com cerca de 10.000 indivíduos de empresas como OpenAI e Nvidia atingindo mais de US$ 20 milhões em patrimônio, enquanto outros enfrentam futuros incertos com perspectivas de emprego estagnadas e demissões. Engenheiros de software expressam preocupações sobre a obsolescência de suas habilidades, aumentando a ansiedade sobre as carreiras. Essa disparidade alimenta a tensão no cenário tecnológico de São Francisco, enquanto alguns criticam o duplo papel da IA como fonte de riqueza e ameaça de carreira.
A OpenAI está fortalecendo a proveniência de conteúdo ao implementar os padrões C2PA e a marca d'água SynthID do Google DeepMind para imagens geradas por IA.
O Scheduled Tasks 2.0 aprimora a automação ao permitir que as tarefas sejam executadas com contexto, garantindo a continuidade dos fluxos de trabalho em diferentes projetos e aplicativos.
O OpenRouter custa cerca de um terço do preço e oferece aproximadamente o dobro da velocidade para modelos comparáveis.
A IA, com seu impacto transformador, está projetada para catalisar um influxo massivo de capital para a filantropia. A expectativa é que essa tecnologia crie novas fortunas e oportunidades, direcionando centenas de bilhões de dólares para iniciativas filantrópicas e marcando uma nova era para doações e investimentos sociais.
Steering é a ideia de que as saídas de LLMs podem ser guiadas manipulando-se diretamente as ativações de um modelo em tempo de execução, e com o DeepSeek-V4-Flash, essa técnica ganha um novo patamar de interesse e aplicabilidade.
A OpenAI adquiriu a equipe de seis pessoas e suas propriedades intelectuais da startup Weights.gg, e então encerrou as operações da Weights.gg e distribuiu seus membros em vários grupos internos da OpenAI.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
