Cinco laboratórios, cinco mentes: criando um drama financeiro com modelos pequenos

08 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O Thousand Token Wood v2 não é só um jogo: é uma demonstração técnica de que agentes financeiros com comportamentos divergentes e memória de interações podem rodar em tempo real, com custo quase zero, em uma RTX 4090. A arquitetura heterogênea, com modelos de 0.5B a 20B de quatro laboratórios diferentes, servidos via vLLM em Modal, cria um ecossistema econômico simulado onde escassez artificial (como combustível perecível e dieta obrigatória) gera flutuações reais de preços e desigualdade mensurável (coeficiente de Gini de 0.14 para 0.38). Isso mostra que raciocínio confiável em agentes não depende de tamanho bruto, mas de estrutura, prompting cuidadoso e ajuste fino, o oposto da lógica dos modelos de fronteira.

Os SLMs usados são mais do que 'versões leves': o MiniCPM3-4B (OpenBMB) foi treinado especificamente para tarefas agênticas com baixa latência; o Nemotron-Mini-4B (NVIDIA) prioriza eficiência em hardware próprio; e o Qwen 0.5B ajustado roda offline em laptop, com suporte nativo a 100 idiomas, algo irrelevante para um modelo de 70B, mas crítico para aplicações locais em mercados emergentes. A OpenAI entrou com o gpt-oss-20b, um modelo aberto derivado do GPT-4o, mas otimizado para inferência local, não para API cloud.

O que mudou

A versão v2 é uma ruptura com a v1 original, que era uma sandbox estática com cinco criaturas florestais controladas por um único modelo de 0,5B. Agora, cada agente tem personalidade distinta, memória de longo prazo, capacidade de formar alianças e responder a choques externos como 'Lendas da Floresta', eventos históricos recontextualizados (ex: Mania das Tulipas → Grande Mania das Bolotas). O hackathon da Hugging Face não só validou a viabilidade técnica, mas também estabeleceu um novo padrão: modelos pequenos não são 'substitutos', mas especialistas que, combinados, geram complexidade emergente, algo que a cobertura CEVIU de 5 de maio já antecipava ao falar da corrida por 'tokens por watt', mas sem mostrar um caso concreto funcional até agora.

Por que isso importa

Isso importa porque mostra que sistemas financeiros simulados, úteis para treinamento de analistas, testes de políticas regulatórias ou até prototipagem de produtos, deixaram de depender de APIs caras ou infraestrutura de nuvem. Um banco pode rodar milhares de simulações diárias de risco de crédito com SLMs locais, gastando centavos por execução, em vez de dólares. E, diferentemente dos experimentos anteriores citados na CEVIU (como o app vulnerável de 4 de junho ou o balanço contábil automatizado de 20 de maio), este projeto não resolve uma tarefa isolada: ele constrói um ambiente dinâmico onde os agentes aprendem, enganam, conspiram e falham, tudo com transparência total sobre o custo computacional e a origem dos modelos.

Linha do tempo

13/05/2026
CEVIU publica análise sobre a corrida por 'tokens por watt' e a pressão dos custos de infraestrutura em IA
27/05/2026
CEVIU destaca a migração de empresas para combinações de engenheiros offshore e modelos locais frente ao aumento dos custos de API
06/06/2026
CEVIU explica como LLMs locais, com ferramentas como Ollama, viabilizam agentes com privacidade e menor custo operacional
08/06/2026
Lançamento do Thousand Token Wood v2 durante o Build Small Hackathon da Hugging Face, demonstrando agentes financeiros heterogêneos com SLMs

Perguntas frequentes

Por que usar cinco modelos diferentes em vez de um só grande?

Modelos grandes tendem a homogenizar respostas, mesmo com prompts distintos. Usar modelos de laboratórios diferentes garante variações reais de viés, estilo e limites, essenciais para simular comportamentos de mercado divergentes, como um agente conservador (Qwen 0.5B) versus outro especulativo (gpt-oss-20b).

É possível implantar isso em produção, fora do hackathon?

Sim. A arquitetura usa ferramentas de código aberto (vLLM, Modal, Gradio) e modelos compatíveis com Ollama e LM Studio. Empresas já estão adaptando esse padrão para detecção de fraudes em tempo real e triagem de conformidade, conforme mostrado na cobertura CEVIU de 6 de junho sobre LLMs locais.

Qual é o custo real de executar uma simulação completa?

Menos de US$ 0,02 por corrida em uma única RTX 4090, com tempo total inferior a dois minutos. Isso representa até 30 vezes menos custo por token comparado ao uso de GPT-4o via API, conforme apontado no relatório da NVIDIA de julho de 2025 e na análise CEVIU de 27 de maio sobre outsourcing e IA local.

Como os modelos pequenos lidam com raciocínio complexo, como insider trading ou manipulação de mercado?

Eles não resolvem sozinhos. A inteligência emerge da estrutura: o jogador atua como 'financiador das sombras', introduzindo ruído (dicas falsas, subornos), enquanto o magistrado (outro agente) valida transações com regras fixas. O raciocínio é distribuído, não centralizado em um único modelo.

Links relacionados

🤖LLMs locais como base para fluxos de trabalho agênticos

Fontes

huggingface.cofonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 08 de junho de 2026
Editoria: CEVIU IA