CEVIU News

CEVIU News - CEVIU IA - 30 de abril de 2026

28 notícias30 de abril de 2026CEVIU IA
Compartilhar:

🤝 CEVIU IA

Em uma entrevista recente, Sam Altman, CEO da OpenAI, e Matt Garman, CEO da AWS, discutiram os Bedrock Managed Agents, impulsionados pela OpenAI, e como isso se encaixaria no acordo da OpenAI com a Microsoft, que concedia à Azure acesso exclusivo aos modelos da OpenAI. Desde então, a Microsoft e a OpenAI alteraram seu acordo para permitir que a OpenAI ofereça seus produtos em outros cloud providers. A exclusividade da Azure estava ativamente prejudicando o investimento da Microsoft na OpenAI, o que levou a Microsoft a tomar medidas, mesmo que isso significasse diminuir a diferenciação da Azure. Além disso, a OpenAI liberou a Microsoft da cláusula de AGI, o que implica que o acordo entre as duas empresas será válido até 2032, mesmo que a OpenAI alcance a AGI antes.

O Mistral Medium 3.5, um dense model de 128B, capacita os agentes remotos Vibe a executar tarefas de codificação assíncronas e de longa duração na nuvem, com ativação a partir do CLI ou do Le Chat. O modelo combina capacidades de seguir instruções, raciocínio e codificação, operando de forma eficiente em quatro GPUs e alcançando alta pontuação no SWE-Bench Verified. O novo modo Work do Le Chat utiliza este modelo para executar tarefas complexas e de múltiplas etapas, abrangendo diversas ferramentas e funções.

A Anthropic lançou conectores que integram o Claude com softwares criativos importantes como Adobe, Blender e Autodesk, viabilizando fluxos de trabalho baseados em linguagem natural, automação e pipelines de trabalho entre diferentes ferramentas para design, modelagem 3D e produção de áudio.

A Alphabet planeja vender suas Tensor Processing Units (TPUs) personalizadas para clientes selecionados, permitindo a instalação desses chips em seus próprios data centers. A empresa anunciou recentemente dois novos modelos de TPUs otimizados para training e inference. A Alphabet já firmou acordos com a Anthropic e a Meta para o fornecimento desses chips, o que intensifica a competição com a Nvidia no mercado.

Fornecer ferramentas de busca básicas a agentes resulta em respostas de melhor qualidade. Incentivar o agente a explorar mais gera melhorias adicionais. Modelos de busca agentic conseguem identificar como apresentar resultados relevantes, contudo, os dados de treinamento continuam a ditar os pontos fortes desses modelos. Modelos de linguagem grandes (LLMs) não conseguem avaliar o que desconhecem, e ainda não há uma maneira efetiva de compensar essa lacuna de conhecimento.

O objetivo inicial do projeto Stargate era construir 20 data centers. No entanto, os parceiros supostamente não conseguiram chegar a um acordo sobre quem teria o controle final dos data centers planejados. Em vez disso, a OpenAI começou a alugar compute. A startup não obteve lucro desde a sua fundação e, embora muitas instituições acreditem em seu potencial, alguns analistas estimam que ela poderá ficar sem caixa até meados de 2027.

A Anthropic aprimorou a compreensão de inputs do Claude Opus 4.7 com um novo tokenizer. Embora o preço do modelo não tenha sido alterado, os mesmos inputs agora custam mais do que nos modelos anteriores. Os custos aumentaram entre 12% a 27%, exceto para prompts curtos, que, na verdade, se tornaram mais eficientes em termos de custo.

Os custos de avaliação de IA escalaram, tornando-se um gargalo de compute significativo, comparável ou até superior aos custos de treinamento, com algumas execuções custando dezenas de milhares de dólares. A área enfrenta uma distribuição desigual de custos entre modelos e tarefas, evidenciando ineficiências e a necessidade de abordagens mais econômicas, como documentação padronizada e reuso de dados. Sem a devida atenção a esses desafios, o processo de avaliação permanece caro, dificultando o acesso igualitário e prejudicando a validação externa na pesquisa em IA.

Alega-se que o CFO da OpenAI não se reporta ao CEO e, segundo relatos, tem sido excluído de discussões financeiras sobre a aquisição de servidores. A empresa assumiu enormes obrigações de infraestrutura, mas o CFO e o conselho estão incertos se esses compromissos poderão ser financiados. Esses fatores, somados ao cronograma apertado para o IPO, tornam improvável que a OpenAI consiga abrir seu capital este ano.

O AutoSP automatiza a conversão de código padrão de treinamento de transformer em código de paralelismo de sequência, focado no treinamento de LLM de contexto longo, e é integrado ao DeepSpeed. Essa ferramenta permite o treinamento de sequências mais longas em múltiplas GPUs sem um overhead de runtime significativo, eliminando a necessidade de mudanças manuais complexas no código. Além disso, o AutoSP oferece uma estratégia avançada de activation-checkpointing para um melhor gerenciamento de memória, otimizando o desempenho com custo mínimo.

O Nemotron 3 Nano Omni da NVIDIA é um novo modelo multimodal projetado para análise de documentos, áudio e vídeo, alcançando precisão de ponta em benchmarks como MMlongbench-Doc e VoiceBench. Sua arquitetura híbrida Mamba-Transformer é integrada com codificadores especializados para visão e áudio, permitindo o processamento eficiente em contextos multimodais extensos. Este modelo aprimora significativamente o throughput e a velocidade de raciocínio para diversas aplicações práticas, incluindo análise de documentos, reconhecimento automático de fala e compreensão de vídeo.

Os LLM Granite 4.1 utilizam uma arquitetura densa, decoder-only, com modelos de 3B, 8B e 30B de parâmetros. Foram treinados em 15 trilhões de tokens, empregando uma abordagem de pré-treinamento em cinco fases. O modelo de 8B parâmetros alcança o desempenho do modelo anterior de 32B Mixture-of-Experts, por meio de um pipeline de reinforcement learning em múltiplas etapas focado na qualidade dos dados. Desenvolvidos para uso corporativo eficiente e confiável, esses modelos demonstram performance competitiva em instruction-following e uso de ferramentas, mantendo a eficiência de custo e um stable usage.

Laguna XS.2 e Laguna M.1 são modelos de codificação baseados em agentes, projetados para tarefas de longo prazo. O Laguna M.1 serve como a base para a família de modelos Laguna, enquanto o Laguna XS.2 é um modelo significativamente menor, mas ainda assim notavelmente capaz para seu tamanho. Ambos os modelos estão disponíveis gratuitamente por tempo limitado via API da Poolside e na plataforma OpenRouter. Os pesos do Laguna XS.2 foram liberados sob uma licença Apache 2.0.

Este post discute como fazer com que as toolchains MCP funcionem usando um framework onde os servidores MCP realizam a maior parte do trabalho, enquanto os modelos seguem um rastro. Os modelos não planejam; eles analisam a conversação, escaneiam a lista de ferramentas e escolhem o que parece mais provável. Para criar cadeias eficazes, é crucial que o servidor torne a próxima chamada inequivocamente óbvia em cada etapa.

O Recurrent Transformer é uma arquitetura inovadora projetada para superar a profundidade temporal limitada dos Transformers padrão. Ao introduzir recorrência entre as camadas, o modelo utiliza uma combinação de pares chave-valor temporários e persistentes para permitir que cada camada mantenha uma memória interna continuamente atualizada. Este mecanismo capacita o modelo a realizar raciocínio complexo e iterativo em uma sequência sem a necessidade de grandes pilhas de camadas.

LaDiR (Latent Diffusion Reasoner) é um novo framework de raciocínio que unifica a expressividade da representação latente contínua com as capacidades de refinamento iterativo de modelos de latent diffusion para um LLM existente. O design permite a geração paralela eficiente de diversas trajetórias de raciocínio, permitindo que os modelos planejem e revisem o processo de raciocínio de forma holística. LaDiR melhora consistentemente a acurácia, diversidade e interpretability em relação aos métodos de raciocínio existentes que são autoregressive, baseados em diffusion e latentes. Ele representa um novo paradigma para o raciocínio de texto com latent diffusion.

As ações de diversas empresas ligadas à OpenAI registraram queda na terça-feira, após a divulgação de que a OpenAI não alcançou suas metas internas de receita e usuários. Investidores expressam preocupação de que o vultoso investimento da OpenAI em IA possa não resultar nos lucros expressivos que muitos antecipam. Críticos da OpenAI apontaram que alguns dos arranjos financeiros da empresa possuem uma natureza circular, onde os parceiros da companhia fornecem financiamento e a própria empresa utiliza esses fundos para despesas com compute junto a esse mesmo parceiro. Em resposta, a OpenAI defendeu sua solidez financeira e assegura que seus líderes estão focados em garantir recursos computacionais.

O novo modelo de IA da Meta, Muse Spark, sinaliza uma mudança em sua estratégia de IA, migrando do open-source para acesso pago, com o objetivo de impulsionar seu negócio de publicidade e competir no crescente mercado de IA. Analistas demonstram otimismo cauteloso, destacando os testes internos e investimentos da Meta, apesar de a empresa ainda estar atrás de players de ponta como o Claude da Anthropic. A redução de força de trabalho da Meta e as contratações estratégicas refletem seu foco intensificado em avanços e infraestrutura de IA.

Elon Musk afirma ter sido um tolo ao apoiar a OpenAI quando ela era uma organização sem fins lucrativos. Musk concedeu à startup um financiamento essencialmente gratuito de US$ 38 milhões. Atualmente, a OpenAI está avaliada em US$ 800 bilhões. Musk solicitou a um tribunal que anule a recente conversão da OpenAI para uma entidade com fins lucrativos e busca indenização de mais de US$ 180 bilhões.

O mercado de inference está se fragmentando devido à diversidade das cargas de trabalho. O ecossistema de modelos se dividiu em camadas de latência, modelos multimodais e modelos de edge. Cada tipo de modelo possui requisitos distintos de disponibilização, o que leva à fragmentação da infraestrutura. Essa fragmentação, por sua vez, cria espaço para que múltiplos vencedores surjam.

A CrewAI desenvolveu Iris, uma funcionária de IA interna, nativa do Slack, capaz de escrever código, enviar pull requests (PRs), revisar o trabalho de colegas de equipe e até mesmo modificar sua própria base de código, atuando em toda a organização de engenharia da CrewAI.

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser