CEVIU News

As melhores notícias de tecnologia, curadas diariamente para quem vive tech.

706 notícias encontradas

Usuários acusaram a Anthropic de ter enfraquecido o Claude Code, mas não há evidências de que a empresa tenha feito isso. Os relatórios públicos mais consistentes ainda carecem de dados brutos independentes. No entanto, a Anthropic não precisaria enfraquecer o Claude para que o Claude Code se tornasse um produto diferente. Padrões de esforço, raciocínio adaptativo, duração de cache, compactação de contexto, política de cotas e incidentes de status podem alterar a experiência, mesmo que o nome do modelo permaneça o mesmo.

Esta publicação apresenta a transcrição de uma entrevista com Jensen Huang. Nela, ele discute a competição de TPUs, o controle da Nvidia sobre a cadeia de suprimentos necessária para fabricar chips avançados, a questão de se os EUA deveriam vender chips de IA para a China, por que a Nvidia não se classifica como uma hyperscaler, a forma como a empresa realiza seus investimentos, entre outros tópicos. Links para as versões em áudio e vídeo da entrevista estão disponíveis.

Pesquisadores propõem uma Hierarquia de Instruções de Múltiplos Níveis (ManyIH) para resolver conflitos de instrução em agentes de LLM, superando modelos tradicionais com níveis fixos de privilégio. Eles apresentam o ManyIH-Bench, que avalia modelos em 12 níveis de privilégio e 853 tarefas de agente, revelando que os modelos atuais têm um desempenho fraco, com 40% de acurácia. Isso ressalta a necessidade de resolução de conflitos escalável em ambientes complexos baseados em agentes.

A IBM Research emprega um benchmark executável, composto por milhares de APIs e documentos, para testar o raciocínio de agentes em múltiplas etapas e o uso de ferramentas. Este estudo revela lacunas de desempenho consistentes e modos de falha comuns nesses sistemas.

A Humwork lança o primeiro marketplace Agent-to-Person (A2P) para conectar agentes de IA com especialistas humanos verificados, auxiliando quando ferramentas de IA enfrentam desafios. A plataforma se integra com ferramentas centradas em IA como Claude Code e Replit, permitindo transferências de tarefas em menos de 30 segundos, com o contexto completo da sessão compartilhado de forma segura. Com mais de 1.000 especialistas disponíveis globalmente, a Humwork ostenta uma taxa de resolução de 87% e conta com o apoio do lote P26 da Y Combinator.

Parcae é uma das primeiras arquiteturas stable para modelos de linguagem em loop. Ele alcança a qualidade de um Transformer com o dobro do tamanho, utilizando um treinamento limpo e previsível. O Parcae aumenta a recorrência em vez de apenas escalar os dados, criando um novo meio para escalar a qualidade. O nome Parcae é uma homenagem às três Parcas romanas: Nona, Decima e Morta.

O custo por token é fundamental para a avaliação do TCO da infraestrutura de IA, dada sua prioridade na inteligência entregue e na integração de hardware, software e eficiências de utilização. Diferentemente de métricas tradicionais como custo de compute ou FLOPS por dólar, o custo por token evidencia o desempenho no mundo real, viabilizando o escalonamento lucrativo da IA. Evidências da NVIDIA mostram que sua plataforma Blackwell reduz drasticamente o custo por token em comparação com a Hopper, oferecendo valor de negócio significativo.

Os Diffusion Language Models (dLLMs) sofrem colapso durante o treinamento em Reinforcement Learning (RL) porque sua log-likelihood precisa ser estimada usando amostragem de Monte Carlo de alta variância, o que gera importance ratios ruidosos. Essas proporções ruidosas induzem picos de gradiente que impulsionam o policy drift em um loop de feedback positivo, um problema que métodos AR tradicionais, como o clipping condicional, não conseguem resolver. O recém-proposto framework StableDRL estabiliza o processo de atualização ao combinar o clipping incondicional para suprimir valores extremos com a autonormalização ligada à informação efetiva no batch.

O Gemini 3.1 Flash TTS do Google aprimora a conversão de texto em fala com expressividade e controlabilidade avançadas. O modelo alcançou uma pontuação Elo notável de 1.211 no leaderboard de TTS da Artificial Analysis. Ele oferece suporte a mais de 70 idiomas e introduz tags de áudio para controle granular do estilo vocal, permitindo manipulação fácil por meio de comandos de linguagem natural. Todo o áudio gerado é protegido com marca d'água SynthID para garantir conteúdo autêntico, prevenindo desinformação.

Muitas equipes têm feito afirmações extraordinárias sobre seus agentes de IA. No entanto, as evidências por trás dessas alegações costumam ser decepcionantes. ScienceWorld e DiscoveryWorld são benchmarks desenvolvidos para testar se os agentes de IA são realmente capazes de fazer ciência. ScienceWorld verifica se os agentes podem recriar descobertas científicas clássicas em um nível aproximado de ensino fundamental, enquanto DiscoveryWorld testa a descoberta de natureza aberta em um nível universitário ou de doutorado. Esses benchmarks, abertos e gratuitamente disponíveis, ajudam a testar as capacidades reais dos agentes científicos.

A OpenAI está expandindo seu programa Trusted Access for Cyber (TAC) para milhares de defensores individuais verificados e centenas de equipes responsáveis pela defesa de softwares críticos. A empresa lançou uma variante do GPT-5.4, treinada para ser "cyber-permissive", denominada GPT-5.4-Cyber. A OpenAI planeja tornar suas ferramentas o mais amplamente disponíveis possível, ao mesmo tempo em que previne o uso indevido, e irá implantar sua tecnologia com cautela à medida que continua a aprimorá-la. Empresas podem agora autenticar-se com a OpenAI como defensores de cibersegurança; aqueles nos níveis mais altos terão acesso ao GPT-5.4-Cyber.

Daniel Kokotajlo, fundador do AI Futures Project, escreveu um ensaio intitulado 'What 2026 Looks Like' em agosto de 2021, antes do lançamento do ChatGPT. Suas previsões mostraram-se bastante precisas. Esta publicação apresenta uma entrevista com Kokotajlo, onde ele discute o que acertou, o que errou e como devemos considerar o ritmo da IA nos próximos anos. Recentemente, Kokotajlo lançou um relatório que prevê os próximos anos do desenvolvimento da IA, culminando na ascensão de agentes super-humanos capazes de assumir o controle da humanidade.

O Google está expandindo o NotebookLM com funcionalidades de Canvas, permitindo a criação de experiências visuais e interativas a partir de fontes de notebook já existentes. A nova opção de Connectors sugere integração com outros serviços Google, visando posicionar o NotebookLM como uma camada central de pesquisa. Recursos de rotulagem e autocategorização podem otimizar a navegação para usuários que gerenciam grandes bibliotecas de fontes, simplificando a organização e o acesso ao conteúdo.