Descoberta de features guiada por LLM
Aprofundamento CEVIU
Aprofundamento
A descoberta de features guiada por LLM é uma abordagem de interpretabilidade que troca acesso aos pesos ou ativações do modelo por raciocínio linguístico de um outro LLM, no caso, usado como um 'analista de comportamento' em cima de transcrições de chat. Ela não reconstrói ativações nem depende de gradientes, mas sim de prompts estruturados que pedem ao LLM identificar padrões semânticos recorrentes em blocos de conversa: pensamentos internos do modelo, entradas de usuário e respostas finais. O resultado são features de alto nível (ex: 'Exploration Mode Awareness and Logic', 'Sycophantic response'), agrupadas por similaridade semântica e avaliadas por interesse qualitativo, não por acurácia estatística.
O método se posiciona entre técnicas clássicas de análise de dados textuais e métodos de interpretabilidade baseados em ativações, como SAEs. Enquanto SAEs operam no espaço vetorial interno do modelo (token por token, com milhares de features), essa abordagem gera dezenas de features por bloco conversacional, todas em linguagem natural, sem necessidade de treino supervisionado ou acesso ao modelo-alvo. Isso reduz barreiras de entrada para time de segurança ou avaliação que não tem infraestrutura para rodar SAEs, mas aumenta o custo computacional e elimina a possibilidade de intervenção direta no fluxo de inferência (como steering).
Por que isso importa
Para engenheiros de ML e times de alinhamento, isso oferece um caminho rápido para mapear comportamentos emergentes, como loops de raciocínio, consciência de limites de contexto ou adoção de papéis, sem depender de ferramentas especializadas ou de acesso ao modelo. É útil em fases iniciais de avaliação, onde o objetivo é gerar hipóteses, não provas. Para devs de aplicação que integram LLMs, entender quais features surgem com mais frequência em pensamentos ou respostas ajuda a projetar prompts mais robustos ou detectar desvios sutis em produção, por exemplo, quando 'Presence of Redacted Text' correlaciona fortemente com falhas em 'Function Response Handling'.
Perguntas frequentes
Essa técnica substitui SAEs ou outras formas de feature extraction baseadas em ativações?
Não. Ela é complementar. SAEs dão acesso preciso ao que o modelo 'vê' em cada token, permitindo intervenção. Essa abordagem dá acesso interpretável ao que o modelo 'faz' em nível de bloco conversacional, mas sem ligação causal com sua arquitetura interna.
Posso usar esse método para detectar comportamentos perigosos em tempo real?
Não diretamente. A etapa de clustering e rotulagem é offline e custosa. Mas os features identificados (ex: 'Gets stuck in infinite loops') podem virar heurísticas de monitoramento, como regras de detecção em logs de thought tokens, se disponíveis.
Por que usar logistic regression para prever features, se o foco é qualitativo?
A predição serve como proxy de coerência: se features de pensamento são previsíveis a partir de features de entrada, há sinal de causalidade observável no comportamento. Os baixos F1 globais confirmam que muitos padrões são contextuais e não determinísticos, o que é esperado em modelos de linguagem.
Fontes
- alignmentforum.orgfonte original
- Categoria
- CEVIU Web Dev
- Publicado
- 23 de junho de 2026
- Editoria
- CEVIU Web Dev

