LLMs estão mais complexos agora

23 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O artigo de Ian Barber não é só sobre 'mais complexidade', é sobre uma mudança estrutural: LLMs deixaram de ser pilhas limpas de Transformers repetidos (como no Llama 3) e viraram sistemas híbridos com múltiplas camadas de especialização. A atenção, que um dia foi o núcleo unificado do modelo, agora se fragmenta em variantes operacionais distintas, sliding-window para contexto longo, compressed para redução de memória, sparse para eficiência em tokens irrelevantes. Isso não é incremento: é reengenharia da pipeline de inferência.

Essa evolução reflete diretamente os desafios que já tínhamos mapeado em maio: o KV-cache virou gargalo crítico em agentes que mantêm estados longos, e técnicas como KV sharing e mHC surgiram justamente para aliviar o tráfego entre GPUs. Agora, elas não são mais otimizações pontuais, estão embutidas na arquitetura base, como no Nemotron 3 Ultra, que mistura encoders multimodais *dentro* do fluxo principal, não como módulos externos.

O que mudou

Em maio, falávamos de técnicas isoladas (KV sharing, compressed attention) como respostas a restrições específicas. Agora, essas técnicas não são mais 'adicionais': são parte da definição de 'modelo moderno'. O Llama 3 ainda podia ser entendido como um Transformer puro com ajustes; o Nemotron 3 Ultra exige uma nova mentalidade de engenharia, composabilidade desde o início, não apenas fusão de kernels após o fato. A diferença não é de escala, mas de filosofia de projeto: antes, otimizávamos um modelo estático; agora, projetamos para troca contínua de blocos, atenção, roteamento MoE, até o residual stream, sem quebrar o SLA de latência.

Por que isso importa

Isso muda quem pode desenvolver e manter modelos. Não basta saber PyTorch ou JAX: agora é preciso dominar comunicação entre GPUs, geração de kernels via Triton (como no FlexAttention), e validação de comportamento funcional sob diferentes variantes de atenção. A barreira de entrada subiu, mas também criou espaço para ferramentas que abstraem essa complexidade, como os loops auto-research que Karpathy busca na Anthropic. Para devs brasileiros, isso significa: menos tempo reescrevendo kernels, mais tempo definindo *quais* atenções fazem sentido para seu caso de uso, desde análise jurídica até suporte técnico em tempo real.

Linha do tempo

2026-02-10
CEVIU analisa estratégias de evasão e controle em LLMs, destacando a necessidade de supervisão robusta em arquiteturas cada vez mais opacas.
2026-04-23
CEVIU explora personalização em LLMs, mostrando que variação nas respostas coexiste com núcleos semânticos estáveis, um indício de modularidade interna crescente.
2026-05-07
CEVIU questiona alegações matemáticas sobre LLMs, alertando que teoremas formais muitas vezes ignoram as otimizações práticas que agora definem arquiteturas reais.
2026-05-20
CEVIU detalha KV sharing, mHC e compressed attention como respostas emergentes às restrições de memória e latência em modelos de raciocínio.
2026-06-16
CEVIU mapeia avanços em modelos open-weight, incluindo Qwen 3.7 Max e DeepSeek V4 Pro, que já incorporam variantes de atenção e roteamento multimodal.
2026-06-22
Artigo de Ian Barber sintetiza a virada: LLMs deixaram de ser pilhas uniformes e se tornaram sistemas compostos, onde atenção, roteamento e multimodalidade são integrados desde o projeto.

Perguntas frequentes

Por que 'attention variants' não são só detalhes técnicos?

Cada variante resolve um trade-off concreto: sliding-window reduz memória para contextos longos, sparse diminui custo computacional em entradas esparsas, compressed melhora throughput em hardware limitado. Escolher a errada pode dobrar o tempo de inferência ou estourar VRAM, mesmo com o mesmo número de parâmetros.

O que é 'composability' nesse contexto?

É a capacidade de trocar componentes, como um bloco de atenção por outro, sem reescrever toda a pipeline. Modelos antigos exigiam fusão manual de kernels. Hoje, frameworks como FlexAttention permitem testar novas variantes com poucas linhas de código, mantendo verificabilidade e desempenho próximo ao ótimo.

Como isso afeta modelos open-weight como Qwen 3.7 Max ou DeepSeek V4 Pro?

Eles já incorporam essas variantes por padrão. O Qwen 3.7 Max usa compressed attention para sustentar 1 milhão de tokens; o DeepSeek V4 Pro aplica roteamento dinâmico em múltiplos níveis, não só em feed-forward, mas também em atenção e residual. Isso não é marketing: é requisito para rodar em infraestrutura realista.

E os agentes autônomos? Eles resolvem essa complexidade?

Não resolvem, dependem dela. Agentes que mantêm estado longo ou chamam ferramentas externas precisam de modelos com atenção adaptável (ex: sliding-window + KV sharing). Um agente rodando em cima de um Llama 3 puro teria latência insustentável em workflows reais. A complexidade atual é o preço da utilidade prática.

Links relacionados

Fontes

ianbarber.blogfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 23 de junho de 2026
Editoria: CEVIU IA