TokenSpeed: Um Motor de Inference LLM na Velocidade da Luz para Workloads de Agentes
TokenSpeed, um motor de inference LLM de alta performance, otimiza workloads de agentes com eficiência na velocidade da luz, utilizando um mecanismo de modelagem baseado em compilador e um scheduler de alta performance. Ele entrega um throughput mais rápido que o TensorRT-LLM para agentes de codificação, com otimizações como o TokenSpeed MLA para melhorar a performance da Nvidia Blackwell. Desenvolvido em colaboração com NVIDIA DevTech e outros parceiros, o TokenSpeed reduz significativamente a latency e aumenta o throughput em workloads de agentes típicos.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 07 de maio de 2026
- Fonte
- CEVIU IA
