CEVIU News

CEVIU News - CEVIU IA - 6 de maio de 2026

29 notícias6 de maio de 2026CEVIU IA
Compartilhar:

💰 CEVIU IA

A OpenAI foi inicialmente financiada por uma ramificação da Y Combinator, a YC Research, em 2016, quando Altman estava à frente da YC. A Y Combinator detém aproximadamente 0,6% da OpenAI. Considerando a avaliação atual da OpenAI, essa participação vale mais de US$ 5 bilhões.

O Google está testando atualizações para o seu modelo Gemini Flash, com um candidato observado no LM Arena apresentando desempenho competitivo em relação ao Gemini 3.1 Pro. Usuários receberam avisos para migrar do Gemini 2 Flash para o 3 ou 3.1 Flash-Lite, sugerindo um lançamento iminente para general availability. Além disso, há indícios de um possível lançamento do Flash 3.2, que promete respostas mais rápidas e migrações simplificadas para desenvolvedores e usuários de aplicativos.

A Subquadratic lançou um novo modelo de IA que ostenta uma janela de contexto impressionante de 12 milhões de tokens. Este novo modelo demonstrou desempenho superior ao do GPT-5.5 em benchmarks de retrieval, destacando sua capacidade avançada de processar e recuperar informações em grandes volumes de dados. Tradicionalmente, o custo de attention em modelos de linguagem cresce quadraticamente com o comprimento do contexto — ou seja, dobrar a entrada de dados quadruplica o trabalho computacional. A Subquadratic declara ter superado esse desafio técnico, e já planeja disponibilizar em breve um modelo com uma janela de contexto ainda maior, de 50 milhões de tokens.

Orbit é um sistema de briefing e insights integrado ao Claude e Claude Code, capaz de gerar briefings personalizados com insights acionáveis extraídos de ferramentas de trabalho conectadas. A conferência para desenvolvedores Code with Claude da Anthropic será realizada em São Francisco em 6 de maio, Londres em 19 de maio e Tóquio em 10 de junho. Permanece incerto se o Orbit será formalmente apresentado no palco ou lançado de forma discreta.

A Meta está desenvolvendo um assistente de IA altamente personalizado capaz de realizar tarefas cotidianas. Este assistente digital será impulsionado pelo novo modelo de IA Muse Spark da empresa. Ele poderá conectar diversas ferramentas de hardware e software e aprender com dados, exigindo menos intervenção humana do que um chatbot. A Meta visa lançar o assistente antes do quarto trimestre deste ano.

Grande parte da inference em LLMs envolve a transferência de dados de um local para outro e, em seguida, o processamento desses dados quando chegam lá. O bottleneck mais frustrante no sistema ocorre quando as unidades de compute ficam ociosas porque o barramento de dados que as alimenta não é rápido o suficiente. A solução passa por transformar memória em compute. A quantization é um truque útil, mas não troca memória por compute de fato — ela transfere metade dos dados para um local para realizar o dobro da computação.

Agentes de visão são a abordagem padrão para operar aplicações web que não expõem APIs. A maioria das equipes opta por agentes de visão porque a alternativa, desenvolver uma interface MCP ou REST, é demasiadamente cara para construir. O custo da abordagem baseada em visão é tratado como um preço fixo. Agentes de visão atuais exigem prompts detalhados para executar tarefas com sucesso e ainda estão sujeitos a erros. Embora modelos de visão aprimorados reduzam as taxas de erro, eles não diminuem o número de capturas de tela necessárias para acessar os dados relevantes, cada uma delas valendo milhares de tokens de entrada.

A IA está se aproximando rapidamente da automação de ponta a ponta de sua própria P&D, com ganhos significativos em codificação, execução de experimentos e autonomia para tarefas de longo prazo. Benchmarks demonstram que os modelos agora lidam com fluxos de trabalho complexos de engenharia e ciência, gerenciam outros agentes e superam cada vez mais os humanos em subproblemas cruciais. Se as tendências se mantiverem, há uma chance de ~60% de sistemas de IA autoaperfeiçoáveis até 2028, o que levará a progresso recursivo, ganhos massivos de produtividade e uma “economia de máquinas” intensiva em capital e com pouca dependência humana.

Os modelos Gemma 4 reduzem gargalos de latência e melhoram a responsividade para desenvolvedores com o uso de drafters de Predição Multi-Token. Esses drafters proporcionam uma aceleração de até 3x sem degradação na qualidade da saída ou na lógica de raciocínio, graças a uma arquitetura especializada de speculative decoding. O speculative decoding desvincula a geração de tokens da verificação, utilizando compute ocioso para 'prever' vários tokens futuros simultaneamente com o drafter, em menos tempo do que o modelo-alvo leva para processar apenas um token. O modelo-alvo então verifica todos esses tokens sugeridos em paralelo.

Suporte multimodal, filtragem personalizada de metadados e citações em nível de página agora estão disponíveis na ferramenta Gemini API File Search. Essas funcionalidades podem auxiliar desenvolvedores a estruturar dados não estruturados para um RAG eficiente e verificável. Os sistemas de RAG dos usuários podem agora processar nativamente e organizar melhor dados textuais e visuais. A ferramenta File Search gerencia a infraestrutura pesada para que os usuários possam focar na construção de produtos.

A curva de retenção viral, descrita como um "sorriso", do ChatGPT, ocultou uma lacuna significativa de monetização ao focar na retenção bruta em vez da líquida. Observou-se que mesmo os consumidores mais engajados estavam limitados a um gasto de $20 por mês. Em contraste, a receita B2B de $44 bilhões da Anthropic demonstra um crescimento notável, impulsionado pela expansão dos gastos por usuário. A IA voltada para o consumidor tem tido dificuldade em capturar valor, diferentemente dos agentes de codificação ou da IA jurídica. Isso ocorre porque os usuários não percebem o valor em pagar por respostas ou imagens geradas, e demonstram resistência em subscrever serviços que oferecem economias que, na percepção deles, já são inerentes ao uso gratuito da tecnologia.

Este livro aborda a ciência da escalabilidade de modelos de linguagem. Ele explora o funcionamento de TPUs e GPUs, como esses componentes se comunicam, a execução de LLMs em hardware real e as técnicas de paralelização de modelos durante o treinamento e inference para operarem eficientemente em larga escala. A obra responde a questões sobre os custos do treinamento de um modelo, a memória necessária para o serving de modelos e outros tópicos relevantes.

Um novo artigo ressignificou as alucinações em modelos de IA, abordando-as como falhas em expressar incerteza, e não meramente como lacunas de conhecimento. A proposta é introduzir a “incerteza fiel” como um mecanismo fundamental para alinhar a confiança demonstrada pelo modelo com sua real confiabilidade na resposta.

A Anthropic planeja gastar US$ 200 bilhões em Google Cloud nos próximos cinco anos, aprofundando o relacionamento que já inclui um investimento do Google de até US$ 40 bilhões na startup. O sucesso da Anthropic resultou em restrições de compute, frustrando alguns usuários com limites de uso. Para mitigar isso, a empresa tem buscado expandir seus acordos para garantir maior capacidade de compute.

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
CEVIU News - CEVIU IA - 6 de maio de 2026 — CEVIU News