CEVIU News

CEVIU News - CEVIU IA - 13 de maio de 2026

25 notícias13 de maio de 2026CEVIU IA
Compartilhar:

🤖 CEVIU IA

O Thinking Machines Lab apresentou uma prévia de pesquisa dos modelos de interação para colaboração humano-IA em tempo real através de áudio, vídeo e texto. Os modelos são treinados do zero com design multi-stream para responsividade em tempo real, permitindo troca constante e eliminando as limitações tradicionais baseadas em turnos. Esta abordagem escalável promete maior interatividade e inteligência com aplicações práticas em diversos domínios.

O modelo de vídeo Gemini Omni do Google apareceu antes do I/O, integrando remix e edição de vídeo diretamente no chat. O feedback inicial destaca suas capacidades de edição robustas, como remoção de marca d'água e troca de objetos, embora fique atrás na qualidade cinematográfica bruta comparado a concorrentes como o Seedance 2 da ByteDance. O modelo pode ser lançado em versões escalonadas, possivelmente Flash e Pro, como parte de uma estratégia mais ampla para unificar modalidades sob o Gemini.

Cargas de trabalho de inference são mais variáveis e imprevisíveis que as de treinamento, tornando-se candidatas naturais para computação serverless. Porém, serverless só funciona se novas réplicas puderem ser criadas tão rapidamente quanto a demanda muda. Este artigo examina como a Modal reduziu o tempo de scaling de servidores de inference de IA de múltiplos quilossegundos para apenas dezenas de segundos.

O modelo foundational Muse Spark da Meta agora alimenta a Meta IA em todos os serviços da empresa. O modelo permite respostas de voz mais rápidas, assistência de compras mais inteligente e reconhecimento visual em tempo real através das câmeras dos dispositivos. O lançamento inicial visa usuários nos EUA e Canadá.

A AWS detalhou como o scaling de foundation models evoluiu além do pré-treinamento para incluir pós-treinamento e test-time compute, junto com a infraestrutura distribuída necessária para suportar cada estágio de forma eficiente.

O IPO em alta da Cerebras sinaliza uma divisão entre "inference para respostas" otimizada para velocidade de tokens e "inference para agentes" otimizada para hierarquia de memória. O WSE-3 da Cerebras tem 44GB de SRAM on-chip a 21 PB/s, aproximadamente 6.000 vezes a largura de banda de memória de um H100, sendo perfeito para respostas de baixa latência voltadas ao usuário, incluindo voz e wearables de IA, mas inadequado quando caches KV e pesos do modelo excedem a capacidade on-chip.

O boom da infraestrutura de IA impulsionou a demanda por semicondutores analógicos e de potência, beneficiando especialmente os Capacitores Cerâmicos Multicamadas, em meio a um excesso de oferta passado e competição acirrada. Empresas como Texas Instruments e NXP Semiconductors estão evitando expansão de capacidade, focando em aumentar preços e melhorar lucratividade. A cadeia de suprimentos de semicondutores, que antes atendia as indústrias de veículos elétricos e energia solar, agora está sendo aproveitada para o crescimento da demanda relacionada à IA.

O Parameter Golf atraiu mais de 1.000 participantes e 2.000 submissões focadas em minimizar perda em um dataset dentro de restrições rigorosas. Os participantes aproveitaram uma gama de técnicas, incluindo ajustes cuidadosos, quantization e ideias inovadoras de modelagem, com agentes de IA desempenhando um papel significativo. Este desafio revelou novos talentos e destacou o papel em evolução dos agentes de IA em competições de pesquisa.

Bedi executa um ciclo completo de desenvolvimento de agentes através de cinco prompts do Claude Code que estruturam, endurecem contra especificações, adicionam capacidades, corrigem falhas de avaliação e reconciliam divergências entre documentação, código e configuração em sua plataforma baseada em Agno. O loop Improve deriva 8-12 testes das instruções do agente, executa cada um contra o container ativo via cURL, julga PASS ou FAIL dos logs do container, então itera até cinco rodadas escolhendo alavancas como endurecer regras, trocar ferramentas ou aumentar num_history_runs até os testes passarem, enquanto Hill Climb executa a suíte de avaliação salva e corrige regressões no local.

O artigo discute o uso de reinforcement learning para fazer fine-tuning de modelos de 4B parâmetros como recursive language models (RLMs) para produção, alcançando comportamento eficiente específico para tarefas com menor custo. Ao treinar uma política compartilhada para RLMs pai e filho, essa abordagem mantém a performance das tarefas e reduz a necessidade de múltiplos modelos. Em testes, este método iguala a performance de modelos maiores como Claude Sonnet 4.6, mas opera com tamanho e custo significativamente reduzidos.

Olivia Moore da a16z migrou seus workflows agentic do Claude Cowork e Claude no Chrome para o Codex da OpenAI, recomendando que a maioria dos trabalhadores do conhecimento não-técnicos faça o mesmo. Com o app desktop de fevereiro, Plugins e Automations, o Codex consolida a troca entre interfaces ChatGPT-Claude-Cowork em um só produto. O Codex oferece Skills instaláveis com um clique que ela espera que ancorem um marketplace interno e entre usuários, considerando que as taxas de tentativa de setup de Skills por não-programadores provavelmente ficam abaixo de 10% no Claude. Os Codex Pets fornecem atualizações de status de tarefas com baixo atrito para usuários que não vivem em um IDE.

Pesquisadores derivaram neural scaling laws conscientes de compressão ao treinar quase 1.300 modelos, revelando como bytes por token afetam a alocação de compute. Isso desafia a heurística que escala modelos por 20 tokens por parâmetro, mostrando que isso se deve a tokenizers específicos. O estudo sugere que o scaling deveria usar bytes, não tokens, para melhor eficiência de compute em diversas linguagens.

A IA carece de criatividade semelhante à humana devido à ausência de impulsos intrínsecos e experiências subjetivas. Emular sentimentos poderia aprimorar as capacidades criativas da IA, mas levanta questões éticas. Projetar IA para genuinamente sentir e desejar pode levar a consequências não intencionais, similar à responsabilidade vista na parentalidade.

Os LLMs atuais podem ser comercialmente valiosos, mas prever texto sozinho não levará à inteligência humana porque a linguagem é apenas uma pequena fração de como os humanos entendem o mundo. Sistemas de IA futuros dependerão de "modelos de mundo" que aprendem representações abstratas de física, causalidade e consequências, permitindo planejamento, raciocínio e adaptação em ambientes reais como robótica, saúde, fábricas e sistemas industriais.

A equipe Qwen lançou o Qwen-Image-2.0, seu mais recente modelo multimodal de geração de imagens, demonstrando melhorias na tipografia, seguimento de instruções, fotorrealismo e renderização de textos longos em tarefas de geração e edição.

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
CEVIU News - CEVIU IA - 13 de maio de 2026 — CEVIU News