A Mudança da Inferência

12 de maio de 2026

O IPO em alta da Cerebras sinaliza uma divisão entre "inference para respostas" otimizada para velocidade de tokens e "inference para agentes" otimizada para hierarquia de memória. O WSE-3 da Cerebras tem 44GB de SRAM on-chip a 21 PB/s, aproximadamente 6.000 vezes a largura de banda de memória de um H100, sendo perfeito para respostas de baixa latência voltadas ao usuário, incluindo voz e wearables de IA, mas inadequado quando caches KV e pesos do modelo excedem a capacidade on-chip.

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 12 de maio de 2026
Fonte: CEVIU IA

Quer receber mais sobre CEVIU IA?