O Grok 4.3 da xAI apresenta uma melhoria no custo por inteligência em comparação com o Grok 4.20 0309 v2. Ele alcança pontuações mais altas no Índice de Inteligência, ao mesmo tempo em que demanda menos recursos para executar a suíte completa de benchmark. O Grok 4.3 se posiciona como um dos modelos de menor custo em seu nível de inteligência, demonstrando um forte desempenho no seguimento de instruções e em tarefas de suporte ao cliente com características de agente autônomo.

CEVIU News - CEVIU IA - 1 de maio de 2026
🤖 CEVIU IA
O Claude Security, agora em beta público para clientes Claude Enterprise, utiliza o poderoso modelo Opus 4.7 para identificar e corrigir vulnerabilidades de software. Integrado em ferramentas usadas por parceiros como Microsoft Security e Palo Alto Networks, o modelo aprimora as defesas de cibersegurança ao permitir a varredura de código eficiente e contínua, sem a necessidade de integração via API customizada. O feedback de centenas de organizações contribuiu para o refinamento de suas capacidades.
A Anthropic, segundo relatos, está finalizando uma rodada de financiamento de aproximadamente US$ 50 bilhões, que poderia avaliar a empresa em torno de US$ 900 bilhões ou mais. Esse movimento é impulsionado por uma forte demanda de investidores e um rápido crescimento da receita, aproximando-se de uma taxa de execução anualizada de US$ 40 bilhões.
A Cursor é a empresa de software mais bem-sucedida operacionalmente da era da IA. Seus fundadores, ao analisar o caminho para atingir $100 bilhões, decidiram que não estavam dispostos a arcar com os riscos associados. Eles venderam a empresa para a xAI por $60 bilhões em um acordo considerado benéfico para todos. A transação oferece à xAI uma plataforma de aplicação para apresentar aos investidores do mercado público antes do IPO da SpaceX, e proporciona à Cursor um patrocinador com poder computacional e um laboratório de modelos não concorrente.
A localidade do cache KV atua como um multiplicador no hardware existente. As mesmas GPUs, servindo o mesmo modelo e gerenciando o mesmo tráfego, podem gerar diferenças mensuráveis em throughput e latência, dependendo de qual GPU recebe cada solicitação. 'Balanceado' e 'eficiente' não são sinônimos quando cada solicitação contém milhares de tokens que podem já estar em cache em algum lugar do cluster. Esta publicação aborda o custo da recomputação, como medi-lo e as mudanças quando os load balancers compreendem a localidade dos tokens.
A OpenAI relacionou o uso crescente de metáforas no 'estilo goblin' em GPT-5.1 a sinais de recompensa decorrentes do ajuste de personalidade, demonstrando como pequenos incentivos podem moldar o comportamento do modelo.
O GPT-5.5 quase reduziu pela metade o runtime no SpatialBench em comparação com o GPT-5.4, mas sua precisão permaneceu praticamente a mesma. O Opus 4.7, de forma semelhante, está no mesmo patamar que o Opus 4.6. Isso sugere que os modelos de fronteira mais recentes são mais rápidos, mas não necessariamente mais confiáveis, em tarefas de biologia espacial. Melhorias significativas nesta área são improváveis de vir apenas de ganhos de raciocínio geral. Elas provavelmente exigirão treinamento explícito em design estatístico, análises específicas de plataforma, testes diferenciais com replicação e outros conhecimentos específicos de biologia espacial.
Qwen-Scope é um toolkit de interpretability treinado nos modelos das séries Qwen3 e Qwen3.5. O toolkit esclarece os mecanismos internos que sustentam o comportamento de Qwen e possui potencial para otimização de modelos. Ele pode ser usado para controllable inference, classificação e síntese de dados, treinamento e otimização de modelos, e análise de distribuição de amostras de avaliação.
As capacidades do AWS Neuron Agentic Development são uma coleção open-source de habilidades de agente que equipam assistentes de codificação de IA com recursos para acelerar o desenvolvimento em AWS Trainium e AWS Inferentia. A release atual oferece capacidades de codificação de agente para o desenvolvimento de kernels para o Neuron Kernel Interface (NKI), concedendo aos desenvolvedores acesso de programação de baixo nível ao Trainium. Isso permite escrever kernels de compute customizados que maximizam o desempenho do hardware. As capacidades abrangem desde a criação de kernels e debugging até a consulta de documentação, captura e análise de perfil.
Shepherd Model Gateway (SMG) é um gateway de roteamento de modelos de alta performance para deployments de LLM em larga escala. Ele centraliza o gerenciamento do ciclo de vida de workers, balanceia o tráfego entre backends compatíveis com HTTP, gRPC e OpenAI, e oferece controle de nível empresarial sobre armazenamento de histórico, MCP tooling e fluxos de trabalho sensíveis à privacidade. O SMG possui compatibilidade total com as APIs OpenAI e Anthropic, abrangendo SGLang, vLLM, TRT-LLM, OpenAI, Gemini e outros. Este artigo discute a arquitetura subjacente por trás do gateway.
O boom da IA impulsionou a indústria de chips de memória para um ciclo de super boom, gerando lucros recordes. A Samsung reportou um lucro líquido no primeiro trimestre equivalente a mais de US$ 30 bilhões, superando seu recorde trimestral anterior e quase atingindo o pico de lucro anual da empresa. Este período histórico não parece ter um fim próximo, com a expectativa de que a escassez de oferta de chips se agrave no próximo ano.
A Perplexity adicionou workflows, conectores de dados corporativos e integrações, como Teams e Excel, ao seu sistema de IA, com o objetivo de otimizar tarefas de negócios estruturadas e promover a automação contínua.
O Cursor atualiza continuamente seu agent harness para melhorar o desempenho do modelo, empregando uma combinação de desenvolvimento orientado por visão, testes A/B e adaptação dinâmica de contexto.
Este artigo explora o funcionamento interno de skills e ressalta como a compreensão do runtime muda fundamentalmente tudo o que é desenvolvido e operado na superfície.
A decodificação especulativa foi aplicada aos rollouts de RL sem alterar as distribuições de saída, proporcionando ganhos de throughput de até 1.8x e projeções de acelerações de ponta a ponta de 2.5x em escala.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
