Todas as notícias

CEVIU IA

Lançamentos, inovações e pesquisas para profissionais de IA, machine learning e ciência de dados

1167 notícias

O stack interno de treinamento de IA da SpaceX faz uso intensivo de paralelismo de pipeline, mapeando-o exatamente para 220 mil GB300s com NICs de 800G, buscando a máxima proximidade com o bare metal. Essa abordagem pode resultar em uma melhoria de velocidade superior a uma ordem de magnitude. O próximo objetivo da SpaceX é desenvolver o stack de inference em C para RL de alta velocidade simultânea em um grande bloco de GB300s.

Asuka Zheng argumenta que o pânico de "estamos ficando sem dados de treinamento" ignora a real dinâmica do mercado de dados, citando seu próprio projeto de substituição de SRE que treinou dois modelos de mundo até estagnar porque trajetórias de incidentes de longo horizonte, de ponta a ponta, desde a primeira anomalia até a resolução completa, não existiam como um dataset.

A MiniMax divulgou um novo relatório técnico aprofundado sobre o desenvolvimento de sua popular série de modelos de linguagem M2, detalhando inovações de engenharia e abordagens inteligentes. O relatório também apresenta uma nova abordagem de sparse attention que será utilizada na próxima série de modelos da MiniMax, prometendo um aumento de até 15.6 vezes na velocidade de decodificação em contextos longos. Com os futuros modelos M3 da MiniMax, o deployment de agentes de IA com contexto ultra-longo se tornará economicamente viável.

A SpaceX assinou um importante acordo de compute com a Anthropic este mês, avaliado em bilhões de dólares mensais. No entanto, Elon Musk minimizou recentemente o acordo, afirmando que a SpaceX não se comprometeu a alugar seu compute por anos, embora isso possa acontecer. Na verdade, o contrato é de 180 dias com uma cláusula de cancelamento mútuo de 90 dias após esse período. O prazo curto foi um pedido da SpaceX, que pode querer reaver o compute em algum momento. A declaração de Musk contradiz diretamente o registro S-1 da SpaceX, que apresenta o acordo como um contrato de três anos.

Jarred Sumner utilizou os workflows dinâmicos do Claude para reescrever o Bun de Zig para Rust, alcançando 99,8% de sucesso nos testes com 750.000 linhas de Rust em apenas 11 dias. Os workflows dinâmicos permitem que o Claude divida tarefas complexas em subtarefas, com agentes executando-as em paralelo até que os resultados convirjam para uma solução eficiente e precisa.

Manter a rede inteira na memória de uma só vez é o motivo pelo qual o treinamento de IA está atingindo um limite de recursos. A Sakana Labs encontrou uma nova maneira de dividir a rede em blocos e treiná-los independentemente. O truque foi tratar o forward pass da rede como um modelo diffusion que remove ruído de um sinal. Isso reduz drasticamente a memória necessária para treinar modelos profundos.

Modelos de IA agora utilizam mais contexto para compreender bases de código, o que resulta em redução de custos, já que os tokens de entrada e os de leitura de cache são mais baratos do que os tokens de saída. Essa abordagem orientada pelo contexto melhora a calibração do código, aumentando a produtividade do desenvolvedor e as taxas de sobrevivência de diffs.

O Agent Judge aprimora as avaliações para agentes de IA em produção com contexto estendido, focando em busca, verificação e adaptação. Ele aborda as deficiências dos avaliadores baseados em LLMs, gerenciando trajetórias complexas, verificando ações estatais contra sistemas e atualizando métricas com base em feedback real. Testes mostram que o Agent Judge, especialmente com métricas refinadas, supera avaliadores LLM tradicionais em precisão e consistência, particularmente em cenários desafiadores.

O Biohub disponibilizou para a comunidade de pesquisa seu open discovery engine para previsão, design e descoberta biológica de estruturas de proteínas. O lançamento inclui o ESMC, um modelo de linguagem avançado que internalizou as propriedades fundamentais da biologia de proteínas; o ESMFold2, um motor de design que transforma as representações de sequência do ESMC em estruturas 3D de complexos biomoleculares com resolução atômica; e o ESM Atlas, que permite a navegação das representações do ESMC em 6,8 bilhões de sequências de proteínas e 1,1 bilhão de estruturas previstas. Todos os três modelos estão disponíveis gratuitamente para a comunidade científica global.

A Cognition levantou mais de US$ 1 bilhão em uma avaliação de US$ 26 bilhões, com apoio significativo de grandes investidores para expandir o Devin, um engenheiro de software de IA. O Devin reduziu significativamente os tempos de projeto e melhorou a automação para clientes como Mercedes-Benz e Itaú. A Cognition visa otimizar ainda mais o desenvolvimento de software combinando modelos com tarefas e expandindo suas capacidades de engenharia.

Outras categorias