Como realizamos OCR em 30.000 artigos usando Codex, modelos de OCR abertos e Jobs
A Hugging Face utilizou um modelo de OCR aberto (Chandra-OCR-2) e scripts gerados pelo Codex, executados em GPUs serverless, para converter aproximadamente 27.000 artigos em Markdown. O objetivo é possibilitar a funcionalidade de 'conversar com o artigo'. A execução paralela dos jobs tornou o processo rápido, levando cerca de 30 horas, e relativamente eficiente em termos de custo, com um total aproximado de US$ 850.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU Dados
- Publicado
- 16 de abril de 2026
- Fonte
- CEVIU Dados
