Voltar

Taalas HC1: Inferência Absurdamente Rápida por Usuário a 17.000 Tokens/Segundo

A Taalas tem desenvolvido discretamente um chip de modelo em silício que integra um LLM diretamente no hardware para entregar uma inferência por usuário absurdamente rápida . O chip HC1 executa o Llama 3.1 8B da Meta em velocidade extrema, efetivamente incorporando o modelo ao silício. Ele alcança uma performance de inference de aproximadamente 17.000 tokens por segundo por usuário. Esta é apenas a primeira versão, com as próximas iterações já projetadas para uma fidelidade consideravelmente superior.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
24 de fevereiro de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
Taalas HC1: Inferência Absurdamente Rápida por Usuário a 17.000 Tokens/Segundo — CEVIU News