CEVIU News

CEVIU News - CEVIU IA - 20 de maio de 2026

40 notícias20 de maio de 2026CEVIU IA
Compartilhar:

👨‍💻 CEVIU IA

A OpenAI divulgou uma prévia de uma nova experiência de finanças pessoais no ChatGPT, disponível para usuários Pro nos EUA. O recurso permite que os usuários conectem suas contas financeiras de forma segura, visualizem painéis de gastos e façam perguntas com base em seu contexto e objetivos financeiros.

Andrej Karpathy anunciou sua entrada na Anthropic, afirmando que os próximos anos na "frontier" dos LLMs serão especialmente formativos para seu retorno à pesquisa e desenvolvimento. Karpathy destacou que continua apaixonado por educação e planeja retomar esse trabalho futuramente, sinalizando que a mudança é focada em pesquisa e não um afastamento permanente do ensino.

O Claude Code está sendo usado em produção em várias grandes bases de código em organizações com milhares de desenvolvedores. Esses ambientes apresentam desafios que bases de código menores não possuem. Este artigo aborda padrões que a Anthropic observou e que levaram à adoção bem-sucedida do Claude Code em escala, incluindo seu uso em monorepos com milhões de linhas, sistemas legados construídos ao longo de décadas e microservices em repositórios separados.

A nova oferta de Capacidade Garantida da OpenAI permite que clientes assegurem acesso de longo prazo a compute para alimentar produtos de IA, agentes e workflows. Clientes podem escolher entre compromissos de um, dois e três anos, com descontos baseados na duração do compromisso. A empresa oferecerá a Capacidade Garantida até esgotar sua alocação atual e planeja oferecê-la novamente no futuro.

A OpenAI está desenvolvendo uma funcionalidade que permitirá ao seu agente de codificação, o Codex, operar aplicativos do macOS através do Computer Use, mesmo quando um laptop estiver bloqueado ou em modo de suspensão. Atualmente, o Computer Use requer uma sessão desbloqueada e ativa para visualizar a tela, mover o cursor e digitar. A remoção dessa restrição permitirá que os usuários direcionem seus agentes sem a necessidade de retornar fisicamente às suas máquinas para fazer login primeiro. A data de lançamento do recurso ainda não foi divulgada.

A avaliação de LLMs mudou de benchmarks estáticos para sistemas de agentes mais dinâmicos e realistas. Uma avaliação eficaz agora exige 'harnesses' realistas para testar agentes em ambientes complexos e por longos períodos. Isso é crucial, pois os agentes estão assumindo papéis de alta responsabilidade, como programação e medicina, o que requer medição rigorosa de desempenho e avaliação orientada a resultados.

A ideia de uma "meia-vida de modelo" — que os lançamentos de modelos de IA se tornariam cada vez mais rápidos, com o tempo de lançamento caindo pela metade a cada seis meses — não se sustenta sob análise. Embora o ritmo de lançamentos tenha de fato acelerado, essa taxa de redução não tem sido sustentada. Este artigo examina as datas de lançamento de vários dos modelos mais conhecidos e apresenta previsões para os próximos lançamentos, buscando um entendimento mais realista do ciclo de inovação.

Modelos de linguagem (LMs) demonstram mudanças imprevisíveis entre repetição de padrões e exibição de inteligência adaptativa durante o pré-treinamento, um fenômeno chamado "mode-hopping". Esse comportamento não pode ser corrigido por técnicas de otimização padrão e se manifesta como uma competição pela capacidade do modelo, influenciada pelos dados de cada janela de treinamento. Pesquisadores propõem aproveitar essas dinâmicas para selecionar melhor os checkpoints de pré-treinamento, organizar dados para stable generalization e avaliar métricas que prevejam o comportamento dos LMs.

A riqueza do HTML permite transmitir informações complexas de forma mais eficaz do que o Markdown, incluindo layouts, tabelas de dados e elementos interativos. Ele melhora a legibilidade ao organizar especificações em documentos bem estruturados e de fácil navegação, além de oferecer melhores capacidades de compartilhamento e interação. O Claude Code utiliza HTML para assimilar eficientemente o contexto de diversas fontes, auxiliando em especificações, prototipagem de design e na criação de interfaces de edição personalizadas com maior engajamento e clareza.

O NVIDIA Cosmos Predict 2.5, capaz de gerar vídeos a partir de texto, está sendo adaptado para tarefas específicas como manipulação robótica. Isso é feito usando LoRA/DoRA para injetar adaptadores treináveis, minimizando o uso de memória. Esses métodos permitem um fine-tuning eficiente em uma única GPU, evitando o "esquecimento catastrófico" enquanto geram trajetórias sintéticas rapidamente. O fine-tuning com LoRA e DoRA melhora significativamente a qualidade do vídeo, com LoRA sendo mais adequado para condições de memória restrita e DoRA preferível para lidar com instabilidade de treinamento.

A portabilidade de kernel em IA é estruturalmente impossível porque o Pallas da TPU, o CuTile e o CUTLASS da NVIDIA, o NKI da AWS, o FlyDSL da AMD e o tt-Metalium da Tenstorrent expõem conceitos específicos de hardware que nenhuma DSL universal pode unificar. A evidência é que o MoE grouped matmul do MaxText é implementado em 282 linhas de Pallas na TPU, enquanto o equivalente do Flashinfer para Blackwell SM100 requer 4 milhões de linhas de CUDA gerado, sem código compartilhado, pois os próprios algoritmos divergem entre hardwares.

A nova família de modelos OlmoEarth v1.1 reduz os custos de compute em até 3X, mantendo o mesmo desempenho, tornando o mapeamento em escala planetária mais acessível. Os modelos processam dados de sensoriamento remoto de forma eficiente, otimizando os comprimentos das sequências de token, o que é crucial para diminuir os custos computacionais. As melhorias metodológicas permitem um desempenho similar ao da versão original com significativamente menos compute, beneficiando desenvolvedores e aprimorando a pesquisa científica em sensoriamento remoto.

Os primeiros CPUs Nvidia Vera chegaram recentemente à Anthropic, OpenAI, SpaceXAI e Oracle. A entrega foi feita pessoalmente por Ian Buck, vice-presidente de Hyperscale e High-Performance Computing da Nvidia. O Vera apresenta 88 núcleos Olympus personalizados projetados pela Nvidia, largura de banda de memória de 1,2 TB/s e um desempenho por núcleo 50% mais rápido. Ele atua como processador host para o Vera Rubin NVL72, que se conecta a um par de GPUs Rubin via NVLink-C2C de segunda geração da Nvidia.

Oz é um control plane multi-harness para agentes em cloud, com suporte a Claude Code, Codex e Warp Agent. Ele oferece orquestração automática multiagente, Agent Memory inter-harness e controles aprimorados de custo e uso. Além disso, Oz proporciona opções expandidas de self-hosting e recursos de governança aprimorados, simplificando a gestão e a implantação de agentes.

O tamanho do KV-cache, o tráfego de memória e o custo da attention rapidamente se tornam as principais restrições à medida que modelos de raciocínio e fluxos de trabalho de agentes mantêm mais tokens por mais tempo. Desenvolvedores de LLMs estão adicionando um número crescente de truques arquitetônicos para reduzir custos. A maioria das mudanças parece pequenos ajustes, mas algumas são alterações de design bastante intrincadas. Este artigo examina essas mudanças arquitetônicas com foco no que muda dentro do bloco transformer, residual stream, KV cache e computação de attention.

Seis novos rerankers CrossEncoder Ettin, construídos com os encoders Ettin ModernBERT, foram lançados, oferecendo modelos de 17 milhões a 1 bilhão de parâmetros. Treinados com pointwise MSE distillation a partir de um teacher robusto de 1,54 bilhão de parâmetros, esses modelos proporcionam melhorias significativas na precisão em comparação com modelos legados, ao mesmo tempo que aumentam a velocidade, especialmente com Flash Attention 2. Eles se destacam pela eficiência em sistemas retrieve-then-rerank e superam modelos como o ms-marco-MiniLM-L12-v2 nos benchmarks MTEB e NanoBEIR.

O Lighthouse Attention, um mecanismo hierárquico de attention baseado em seleção, é até 17 vezes mais rápido em passes forward e backward do que os modelos de attention padrão em contextos grandes. Ele utiliza FlashAttention em uma sub-sequência densa, garantindo eficiência e compatibilidade com melhorias existentes. Ao possibilitar o treinamento eficiente de modelos com contexto longo e manter a competência de um dense model, o Lighthouse Attention alcança um aumento de velocidade de 1.4x a 1.7x no pré-treinamento, enquanto reduz os custos computacionais.

Os fundadores da Runway acreditam que a próxima forma de IA será construída a partir de modelos de vídeo e modelos de mundo que aprendem como o mundo funciona. A empresa está treinando modelos diretamente em dados de observação para alcançar a próxima fronteira da IA. A Runway foi uma das primeiras a desenvolver a geração de vídeo por IA, mas os modelos de mundo representam uma corrida diferente, com concorrentes de grande porte. A empresa já levantou US$ 860 milhões, mas está competindo contra grandes players como OpenAI e Google.

O boom da IA criou uma divisão de riqueza, com cerca de 10.000 indivíduos de empresas como OpenAI e Nvidia atingindo mais de US$ 20 milhões em patrimônio, enquanto outros enfrentam futuros incertos com perspectivas de emprego estagnadas e demissões. Engenheiros de software expressam preocupações sobre a obsolescência de suas habilidades, aumentando a ansiedade sobre as carreiras. Essa disparidade alimenta a tensão no cenário tecnológico de São Francisco, enquanto alguns criticam o duplo papel da IA como fonte de riqueza e ameaça de carreira.

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser