CEVIU Logo
Voltar

DocLang: novo formato de documento projetado para tornar dados mais compreensíveis à IA

Aprofundamento CEVIU

Aprofundamento

O DocLang não é só mais um formato de documento. É uma tentativa de reescrever as regras do jogo para a ingestão de dados por LLMs, partindo do princípio de que o problema não está no modelo, mas na forma como o dado chega a ele. Enquanto ferramentas como Amazon Textract ou Azure Document Intelligence ainda operam como 'tradutores' entre PDF e texto, o DocLang é um idioma nativo para IA: XML restrito, mapeamento 1:1 com tokens, elementos semânticos explícitos (como em vez de ), e metadados de governança embutidos no próprio documento, não em arquivos separados. Isso elimina a camada de interpretação ambígua que hoje faz modelos 'adivinharem' hierarquia, ordem de leitura ou intenção de uma tabela.

A inovação real está na perda zero de informação geométrica e estrutural: cada bloco tem caixa delimitadora, função semântica e sequência lógica codificadas, algo que Markdown ignora, HTML exagera e LaTeX deixa ao acaso. E, diferentemente do Docling (lançado pela IBM em 2024), que converte documentos para IA, o DocLang é o destino final dessa conversão: o padrão universal para troca entre sistemas. A versão 0.6 já roda com validador PyPI e suporte nativo no Docling e no FineReader Engine da ABBYY.

O que mudou

Em abril de 2025, o Docling foi absorvido pela LF AI & Data como projeto oficial, mas era apenas uma ferramenta de conversão. Agora, em junho de 2026, o DocLang surge como especificação formal, com governança neutra sob a Joint Development Foundation e suporte fundador de IBM, NVIDIA, Red Hat, ABBYY, HumanSignal e Forgis. O que era um toolkit isolado virou uma pilha completa: Docling ingere, DocLang padroniza. E o que era rumor sobre 'formato otimizado para tokenizadores' agora é realidade técnica comprovada, 30x menos tokens em benchmarks reais, latência reduzida e tabelas preservadas sem distorção.

Por que isso importa

Empresas gastam milhões treinando LLMs e construindo RAGs, mas jogam boa parte desse investimento fora ao alimentá-los com PDFs mal estruturados. O DocLang ataca o gargalo invisível: a ineficiência de tokenização. Um relatório anual que consome 8.421 tokens em PDF exige só 5.310 em DocLang, e isso não é economia pontual, é escalável. Em milhares de contratos jurídicos ou demonstrações financeiras processadas diariamente, essa diferença vira custo operacional mensal, risco de hallucination e falhas de governança. Mais do que um formato, é uma camada de infraestrutura documental para IA empresarial, e sua adoção pode definir quem consegue escalar aplicações de IA com precisão, velocidade e controle reais.

Linha do tempo

  1. IBM lança o toolkit Docling como projeto open source para conversão de documentos em dados estruturados para IA

  2. Docling é adotado oficialmente pela LF AI & Data Foundation como projeto incubado

  3. LF AI & Data anuncia formalmente o grupo de trabalho DocLang, com fundadores IBM, NVIDIA, Red Hat, ABBYY, HumanSignal e Forgis

  4. DocLang entra em testes piloto com empresas jurídicas e financeiras no Brasil e Europa; especificação 0.6 liberada publicamente

Perguntas frequentes

DocLang substitui PDF ou HTML?

Não. Ele não é um formato de visualização, mas de representação para máquinas. PDFs continuam sendo usados para impressão e leitura humana. DocLang é o equivalente ao 'código-fonte estruturado' que alimenta os modelos, como um JSON semântico para documentos, não um substituto de layout.

Como migrar documentos existentes para DocLang?

Não há conversão manual. O fluxo usa ferramentas como Docling ou FineReader Engine: elas recebem PDF, DOCX ou imagem e geram saída nativa em DocLang. Empresas podem integrar esse passo na pipeline de ingestão, sem reescrever documentos legados.

Quem controla a evolução do padrão?

Ninguém. O DocLang é mantido por um grupo de trabalho aberto na LF AI & Data, com governança neutra da Joint Development Foundation. Nenhuma empresa detém direitos exclusivos sobre a especificação, que é licenciada Apache 2.0.

Já existe suporte em frameworks de IA populares?

Ainda não nativamente em LangChain ou LlamaIndex, mas a especificação prevê adaptadores simples. O foco inicial está em ferramentas de processamento (Docling, FineReader) e servidores MCP, como o recém-lançado MDN MCP da Mozilla, que já demonstra compatibilidade com formatos estruturados de documentação técnica.

Fontes

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
16 de junho de 2026
Editoria
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser