O Google lançou o Gemini 3.5 Flash, um novo modelo focado em workflows agentic, codificação e execução de tarefas de longo prazo. O lançamento também expandiu o acesso ao Gemini em diversas plataformas, incluindo Busca, ferramentas empresariais, Android Studio e as plataformas de desenvolvedores do Google.
CEVIU IA
Lançamentos, inovações e pesquisas para profissionais de IA, machine learning e ciência de dados
1081 notícias
A riqueza do HTML permite transmitir informações complexas de forma mais eficaz do que o Markdown, incluindo layouts, tabelas de dados e elementos interativos. Ele melhora a legibilidade ao organizar especificações em documentos bem estruturados e de fácil navegação, além de oferecer melhores capacidades de compartilhamento e interação. O Claude Code utiliza HTML para assimilar eficientemente o contexto de diversas fontes, auxiliando em especificações, prototipagem de design e na criação de interfaces de edição personalizadas com maior engajamento e clareza.
A nova família de modelos OlmoEarth v1.1 reduz os custos de compute em até 3X, mantendo o mesmo desempenho, tornando o mapeamento em escala planetária mais acessível. Os modelos processam dados de sensoriamento remoto de forma eficiente, otimizando os comprimentos das sequências de token, o que é crucial para diminuir os custos computacionais. As melhorias metodológicas permitem um desempenho similar ao da versão original com significativamente menos compute, beneficiando desenvolvedores e aprimorando a pesquisa científica em sensoriamento remoto.
A ideia de uma "meia-vida de modelo" — que os lançamentos de modelos de IA se tornariam cada vez mais rápidos, com o tempo de lançamento caindo pela metade a cada seis meses — não se sustenta sob análise. Embora o ritmo de lançamentos tenha de fato acelerado, essa taxa de redução não tem sido sustentada. Este artigo examina as datas de lançamento de vários dos modelos mais conhecidos e apresenta previsões para os próximos lançamentos, buscando um entendimento mais realista do ciclo de inovação.
A nova oferta de Capacidade Garantida da OpenAI permite que clientes assegurem acesso de longo prazo a compute para alimentar produtos de IA, agentes e workflows. Clientes podem escolher entre compromissos de um, dois e três anos, com descontos baseados na duração do compromisso. A empresa oferecerá a Capacidade Garantida até esgotar sua alocação atual e planeja oferecê-la novamente no futuro.
O Kimi K2.6, um modelo de trilhões de parâmetros, demonstrou o desempenho mais rápido já medido para um modelo frontier pela Artificial Analysis, atingindo cerca de 1.000 tokens por segundo.
Seis novos rerankers CrossEncoder Ettin, construídos com os encoders Ettin ModernBERT, foram lançados, oferecendo modelos de 17 milhões a 1 bilhão de parâmetros. Treinados com pointwise MSE distillation a partir de um teacher robusto de 1,54 bilhão de parâmetros, esses modelos proporcionam melhorias significativas na precisão em comparação com modelos legados, ao mesmo tempo que aumentam a velocidade, especialmente com Flash Attention 2. Eles se destacam pela eficiência em sistemas retrieve-then-rerank e superam modelos como o ms-marco-MiniLM-L12-v2 nos benchmarks MTEB e NanoBEIR.
Andrej Karpathy anunciou sua entrada na Anthropic, afirmando que os próximos anos na "frontier" dos LLMs serão especialmente formativos para seu retorno à pesquisa e desenvolvimento. Karpathy destacou que continua apaixonado por educação e planeja retomar esse trabalho futuramente, sinalizando que a mudança é focada em pesquisa e não um afastamento permanente do ensino.
Oz é um control plane multi-harness para agentes em cloud, com suporte a Claude Code, Codex e Warp Agent. Ele oferece orquestração automática multiagente, Agent Memory inter-harness e controles aprimorados de custo e uso. Além disso, Oz proporciona opções expandidas de self-hosting e recursos de governança aprimorados, simplificando a gestão e a implantação de agentes.
No I/O 2026, o Google apresentou como os modelos Gemini estão sendo integrados em produtos de consumo, ferramentas criativas e plataformas de desenvolvedores. A empresa também revelou que o uso mensal de token em seus sistemas de IA cresceu para mais de 3,2 quatrilhões.
A OpenAI está fortalecendo a proveniência de conteúdo ao implementar os padrões C2PA e a marca d'água SynthID do Google DeepMind para imagens geradas por IA.
A IA, com seu impacto transformador, está projetada para catalisar um influxo massivo de capital para a filantropia. A expectativa é que essa tecnologia crie novas fortunas e oportunidades, direcionando centenas de bilhões de dólares para iniciativas filantrópicas e marcando uma nova era para doações e investimentos sociais.
O processo de Elon Musk contra Sam Altman e a OpenAI foi indeferido. Um júri decidiu que Musk esperou tempo demais para entrar com a ação judicial. Musk afirma que planeja recorrer.
Modelos de linguagem (LMs) demonstram mudanças imprevisíveis entre repetição de padrões e exibição de inteligência adaptativa durante o pré-treinamento, um fenômeno chamado "mode-hopping". Esse comportamento não pode ser corrigido por técnicas de otimização padrão e se manifesta como uma competição pela capacidade do modelo, influenciada pelos dados de cada janela de treinamento. Pesquisadores propõem aproveitar essas dinâmicas para selecionar melhor os checkpoints de pré-treinamento, organizar dados para stable generalization e avaliar métricas que prevejam o comportamento dos LMs.
A censura política implementada no Qwen3.5-9B reside em um pequeno circuito nos pesos do modelo, que pode ser lido e desativado. O conhecimento factual já está presente no pré-treinamento, e o comportamento de censura é sobreposto a esses fatos. O modelo não perde o conhecimento, mas aprende a contorná-lo.
A avaliação de LLMs mudou de benchmarks estáticos para sistemas de agentes mais dinâmicos e realistas. Uma avaliação eficaz agora exige 'harnesses' realistas para testar agentes em ambientes complexos e por longos períodos. Isso é crucial, pois os agentes estão assumindo papéis de alta responsabilidade, como programação e medicina, o que requer medição rigorosa de desempenho e avaliação orientada a resultados.
A Cursor lançou o Composer 2.5, uma versão atualizada de seu agente de codificação. Este agente foi treinado utilizando uma combinação de aprendizado por reforço direcionado, dados sintéticos e novas técnicas de treinamento distribuído, visando otimizar sua performance.
O NVIDIA Cosmos Predict 2.5, capaz de gerar vídeos a partir de texto, está sendo adaptado para tarefas específicas como manipulação robótica. Isso é feito usando LoRA/DoRA para injetar adaptadores treináveis, minimizando o uso de memória. Esses métodos permitem um fine-tuning eficiente em uma única GPU, evitando o "esquecimento catastrófico" enquanto geram trajetórias sintéticas rapidamente. O fine-tuning com LoRA e DoRA melhora significativamente a qualidade do vídeo, com LoRA sendo mais adequado para condições de memória restrita e DoRA preferível para lidar com instabilidade de treinamento.
A Anthropic adquiriu a startup de ferramentas para desenvolvedores Stainless, cuja plataforma de automação de SDK era amplamente utilizada por empresas de IA, incluindo OpenAI, Google e Cloudflare.
Os primeiros CPUs Nvidia Vera chegaram recentemente à Anthropic, OpenAI, SpaceXAI e Oracle. A entrega foi feita pessoalmente por Ian Buck, vice-presidente de Hyperscale e High-Performance Computing da Nvidia. O Vera apresenta 88 núcleos Olympus personalizados projetados pela Nvidia, largura de banda de memória de 1,2 TB/s e um desempenho por núcleo 50% mais rápido. Ele atua como processador host para o Vera Rubin NVL72, que se conecta a um par de GPUs Rubin via NVLink-C2C de segunda geração da Nvidia.
