Voltar

Como realizamos OCR em 30.000 artigos usando Codex, modelos de OCR abertos e Jobs

A Hugging Face utilizou um modelo de OCR aberto (Chandra-OCR-2) e scripts gerados pelo Codex, executados em GPUs serverless, para converter aproximadamente 27.000 artigos em Markdown. O objetivo é possibilitar a funcionalidade de 'conversar com o artigo'. A execução paralela dos jobs tornou o processo rápido, levando cerca de 30 horas, e relativamente eficiente em termos de custo, com um total aproximado de US$ 850.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU Dados
Publicado
16 de abril de 2026
Fonte
CEVIU Dados

Quer receber mais sobre CEVIU Dados?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser