O Thinking Machines Lab apresentou uma prévia de pesquisa dos modelos de interação para colaboração humano-IA em tempo real através de áudio, vídeo e texto. Os modelos são treinados do zero com design multi-stream para responsividade em tempo real, permitindo troca constante e eliminando as limitações tradicionais baseadas em turnos. Esta abordagem escalável promete maior interatividade e inteligência com aplicações práticas em diversos domínios.

CEVIU News - CEVIU IA - 13 de maio de 2026
🤖 CEVIU IA
O modo Fast para Claude Opus 4.7 está disponível em preview de pesquisa na API e Claude Code, além de plataformas como Cursor, Emergent, Factory, v0, Warp e Windsurf. O modo Fast atualmente é opt-in, mas eventualmente se tornará o padrão. Um link para entrar na lista de espera do modo Fast está disponível.
O modelo de vídeo Gemini Omni do Google apareceu antes do I/O, integrando remix e edição de vídeo diretamente no chat. O feedback inicial destaca suas capacidades de edição robustas, como remoção de marca d'água e troca de objetos, embora fique atrás na qualidade cinematográfica bruta comparado a concorrentes como o Seedance 2 da ByteDance. O modelo pode ser lançado em versões escalonadas, possivelmente Flash e Pro, como parte de uma estratégia mais ampla para unificar modalidades sob o Gemini.
Cargas de trabalho de inference são mais variáveis e imprevisíveis que as de treinamento, tornando-se candidatas naturais para computação serverless. Porém, serverless só funciona se novas réplicas puderem ser criadas tão rapidamente quanto a demanda muda. Este artigo examina como a Modal reduziu o tempo de scaling de servidores de inference de IA de múltiplos quilossegundos para apenas dezenas de segundos.
Elon Musk anunciou que a xAI será dissolvida e integrada à SpaceX como uma nova divisão chamada SpaceXAI. A SpaceXAI ficará responsável por projetos de IA como a plataforma X e o Grok, colocando-os sob a marca SpaceX. A mudança simplifica as operações, melhora a integração vertical e alinha os esforços de IA com os objetivos estratégicos da SpaceX.
O modelo foundational Muse Spark da Meta agora alimenta a Meta IA em todos os serviços da empresa. O modelo permite respostas de voz mais rápidas, assistência de compras mais inteligente e reconhecimento visual em tempo real através das câmeras dos dispositivos. O lançamento inicial visa usuários nos EUA e Canadá.
A AWS detalhou como o scaling de foundation models evoluiu além do pré-treinamento para incluir pós-treinamento e test-time compute, junto com a infraestrutura distribuída necessária para suportar cada estágio de forma eficiente.
Google e SpaceX estiveram supostamente discutindo data centers orbitais como parte de esforços mais amplos para expandir a infraestrutura computacional de IA além das instalações terrestres.
O IPO em alta da Cerebras sinaliza uma divisão entre "inference para respostas" otimizada para velocidade de tokens e "inference para agentes" otimizada para hierarquia de memória. O WSE-3 da Cerebras tem 44GB de SRAM on-chip a 21 PB/s, aproximadamente 6.000 vezes a largura de banda de memória de um H100, sendo perfeito para respostas de baixa latência voltadas ao usuário, incluindo voz e wearables de IA, mas inadequado quando caches KV e pesos do modelo excedem a capacidade on-chip.
O boom da infraestrutura de IA impulsionou a demanda por semicondutores analógicos e de potência, beneficiando especialmente os Capacitores Cerâmicos Multicamadas, em meio a um excesso de oferta passado e competição acirrada. Empresas como Texas Instruments e NXP Semiconductors estão evitando expansão de capacidade, focando em aumentar preços e melhorar lucratividade. A cadeia de suprimentos de semicondutores, que antes atendia as indústrias de veículos elétricos e energia solar, agora está sendo aproveitada para o crescimento da demanda relacionada à IA.
O A²RD introduz um framework agentic de diffusion autoregressive para gerar vídeos longos e coerentes através de retrieval iterativo, síntese, refinamento e atualizações de memória.
O Parameter Golf atraiu mais de 1.000 participantes e 2.000 submissões focadas em minimizar perda em um dataset dentro de restrições rigorosas. Os participantes aproveitaram uma gama de técnicas, incluindo ajustes cuidadosos, quantization e ideias inovadoras de modelagem, com agentes de IA desempenhando um papel significativo. Este desafio revelou novos talentos e destacou o papel em evolução dos agentes de IA em competições de pesquisa.
Os Normalizing Trajectory Models substituem os passos padrão de denoising do diffusion por normalizing flows condicionais, permitindo geração de imagens em quatro passos enquanto mantêm treinamento de likelihood exato e suportam self-distillation.
A OpenAI compartilhou um workflow do Codex para agentes que revisam, reparam e validam saídas iterativamente usando loops de feedback estruturados para melhorar a confiabilidade.
Bedi executa um ciclo completo de desenvolvimento de agentes através de cinco prompts do Claude Code que estruturam, endurecem contra especificações, adicionam capacidades, corrigem falhas de avaliação e reconciliam divergências entre documentação, código e configuração em sua plataforma baseada em Agno. O loop Improve deriva 8-12 testes das instruções do agente, executa cada um contra o container ativo via cURL, julga PASS ou FAIL dos logs do container, então itera até cinco rodadas escolhendo alavancas como endurecer regras, trocar ferramentas ou aumentar num_history_runs até os testes passarem, enquanto Hill Climb executa a suíte de avaliação salva e corrige regressões no local.
O artigo discute o uso de reinforcement learning para fazer fine-tuning de modelos de 4B parâmetros como recursive language models (RLMs) para produção, alcançando comportamento eficiente específico para tarefas com menor custo. Ao treinar uma política compartilhada para RLMs pai e filho, essa abordagem mantém a performance das tarefas e reduz a necessidade de múltiplos modelos. Em testes, este método iguala a performance de modelos maiores como Claude Sonnet 4.6, mas opera com tamanho e custo significativamente reduzidos.
Olivia Moore da a16z migrou seus workflows agentic do Claude Cowork e Claude no Chrome para o Codex da OpenAI, recomendando que a maioria dos trabalhadores do conhecimento não-técnicos faça o mesmo. Com o app desktop de fevereiro, Plugins e Automations, o Codex consolida a troca entre interfaces ChatGPT-Claude-Cowork em um só produto. O Codex oferece Skills instaláveis com um clique que ela espera que ancorem um marketplace interno e entre usuários, considerando que as taxas de tentativa de setup de Skills por não-programadores provavelmente ficam abaixo de 10% no Claude. Os Codex Pets fornecem atualizações de status de tarefas com baixo atrito para usuários que não vivem em um IDE.
Pesquisadores derivaram neural scaling laws conscientes de compressão ao treinar quase 1.300 modelos, revelando como bytes por token afetam a alocação de compute. Isso desafia a heurística que escala modelos por 20 tokens por parâmetro, mostrando que isso se deve a tokenizers específicos. O estudo sugere que o scaling deveria usar bytes, não tokens, para melhor eficiência de compute em diversas linguagens.
A IA carece de criatividade semelhante à humana devido à ausência de impulsos intrínsecos e experiências subjetivas. Emular sentimentos poderia aprimorar as capacidades criativas da IA, mas levanta questões éticas. Projetar IA para genuinamente sentir e desejar pode levar a consequências não intencionais, similar à responsabilidade vista na parentalidade.
Google apresentou novos recursos do Android baseados no Gemini que podem executar ações entre aplicativos, navegar na web, preencher formulários e gerar widgets personalizados através de prompts em linguagem natural.
Os LLMs atuais podem ser comercialmente valiosos, mas prever texto sozinho não levará à inteligência humana porque a linguagem é apenas uma pequena fração de como os humanos entendem o mundo. Sistemas de IA futuros dependerão de "modelos de mundo" que aprendem representações abstratas de física, causalidade e consequências, permitindo planejamento, raciocínio e adaptação em ambientes reais como robótica, saúde, fábricas e sistemas industriais.
Ilya Sutskever, cofundador e ex-cientista-chefe da OpenAI, é um dos maiores acionistas individuais da startup de IA.
A equipe Qwen lançou o Qwen-Image-2.0, seu mais recente modelo multimodal de geração de imagens, demonstrando melhorias na tipografia, seguimento de instruções, fotorrealismo e renderização de textos longos em tarefas de geração e edição.
Modelos de busca agentic são LLMs especializados treinados especificamente para busca.
O Mk1 é um modelo de IA para análise de vídeo com preço 80-90% menor que rivais como Anthropic, OpenAI e Google.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
