A OpenAI atualizou o Codex com Pets animados, que surgem como sobreposições na tela e interagem através de balões de mensagem curtos. O Codex agora também importa automaticamente arquivos de configuração de outros agentes de codificação e apresenta um novo dicionário de ditado para melhorar a precisão da entrada de voz. Essas atualizações visam aprimorar a usabilidade e o apelo do Codex como um aplicativo de desktop abrangente.

CEVIU News - CEVIU IA - 5 de maio de 2026
🐾 CEVIU IA
A Anthropic parece ter iniciado uma nova rodada de red teaming em uma nova build interna. A empresa sediará sua conferência de desenvolvedores Code with Claude em São Francisco no dia 6 de maio, e o momento sugere que o modelo está sendo aprimorado antes de um anúncio programado para o evento. Esta rodada de red teaming é consistente com a política de escalonamento responsável da Anthropic, que exige jailbreak probes e constitutional classifier stress tests antes de qualquer deployment de classe frontier.
O Google está testando um novo modelo Omni para geração de vídeo, com o potencial de unificar suas ferramentas de geração de vídeo e imagem. O modelo Omni surge na UI de geração de vídeo do Gemini, o que sugere que pode se tornar um nome de produto público. Um lançamento durante o Google I/O 2026 é uma possibilidade, em meio à crescente concorrência no mercado de vídeo com IA.
Os modelos de preview mais recentes da DeepSeek, DeepSeek-V4-Pro e DeepSeek-V4-Flash, são ambos modelos Mixture of Experts de um milhão de token. A versão Pro possui um total de 1.6 trilhão de parâmetros, com 49 bilhões ativos, enquanto a Flash tem 284 bilhões no total, com 13 bilhões ativos. O DeepSeek-V4-Pro é agora o maior modelo de pesos abertos e também é um modelo muito barato de operar.
Esta publicação analisa como os preços se comparam entre os planos de codificação e APIs. O Codex é fortemente subsidiado em comparação com outros, mas a maioria dos demais ainda recebe subsídio. O Claude Pro, por sua vez, custa cerca de 10 vezes mais por token do que os demais concorrentes.
Modelos de linguagem grandes (LLMs) estão se tornando um dos maiores projetos de infraestrutura computacional já vistos. Este artigo é a primeira parte de uma série sobre a arquitetura de LLMs e suas implicações para o raciocínio. Ele explora o motivo pelo qual a arquitetura transformer foi tão impactante para os LLMs.
A Perplexity foca em Agent Skills modulares para aprimorar seus produtos de agentes de fronteira, empregando designs e hierarquias específicas para garantir experiências de usuário de alta qualidade. Diferentemente do software tradicional, o desenvolvimento dessas Skills prioriza princípios de design detalhados e sensíveis ao contexto, nos quais consultas e avaliações reais determinam sua necessidade e conteúdo. A manutenção dessas Skills exige iteração contínua, testes em múltiplos modelos e a priorização de eficiência e simplicidade, dada a 'custo' intrínseco que cada Skill adiciona.
Um método escalável gera ambientes computacionais virtuais realistas e simulações de longo prazo, produzindo sinais de treinamento ricos que melhoram o desempenho de agentes em tarefas de produtividade.
O Edit-R1 introduziu um modelo de recompensa baseado em chain-of-thought que avalia edições de imagem através de raciocínio estruturado, aprimorando o alignment e o desempenho em tarefas de edição guiadas por texto.
Amjad Masad, da Replit, sobre o acordo com a Cursor, a disputa com a Apple e o desejo de não vender
Amjad Masad, da Replit, destaca um forte crescimento, aproximando-se de uma taxa de execução de um bilhão de dólares, e ostenta uma taxa de retenção de receita líquida de 300%. Ao contrário da Cursor, que enfrenta margens negativas, a Replit mantém margens brutas positivas e atrai usuários não técnicos com sua plataforma segura e de ponta a ponta. Embora Masad permaneça comprometido com a independência da Replit, ele reconhece discussões abertas com potenciais compradores e expressa frustração com as supostas práticas discriminatórias da App Store da Apple, sugerindo uma possível ação legal.
Este artigo detalha o pipeline de inference, desde a tokenization e embeddings, passando pelas camadas de self-attention empilhadas. Em seguida, divide a geração em duas fases distintas na mesma GPU: o prefill, limitado por compute, que processa todos os tokens de entrada em paralelo, e o decode, limitado por memória, que emite um token por vez.
O colapso de modo ocorre quando modelos geram repetidamente as saídas mais comuns, levando a resultados homogêneos. Um exemplo disso é uma IA que, com dados de treinamento desequilibrados, gera mais cães do que gatos. Esse fenômeno impacta de forma semelhante diversos domínios, como a concessão de subsídios e a música, pois os sistemas se tornam cada vez mais especializados ao longo do tempo com base em outputs e sucessos anteriores. Para combater isso, é necessário introduzir variabilidade ou alterar pressões externas para promover a diversificação e evitar a superespecialização.
A comparação entre modelos open-source e APIs fechadas é equivocada, pois eles servem a propósitos distintos.
Muitas das empresas afirmaram que seus acordos com o Departamento de Guerra incluem compromissos de que suas ferramentas não seriam utilizadas para vigilância em massa ou armas autônomas.
Investidores planejam criar uma empresa para auxiliar negócios a incorporar a IA em suas operações.
Um único pool global de vLLM é uma opção padrão inadequada para lidar com tráfego misto.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
