Hardwood: Um Novo Parser para Apache Parquet
Hardwood é um parser Parquet leve e de código aberto para Java 21+, construído para leitura multi-threaded de alto throughput com dependências mínimas. Utilizando paralelismo em nível de página, prefetching adaptativo e mapeamento de memória, ele pode ler 9.2GB ou 650 milhões de linhas em cerca de 1.2 segundos em 16 núcleos, superando em mais de duas vezes a velocidade de leituras linha a linha. A ferramenta oferece APIs de linha e coluna com amplo suporte a compressão e tem suporte a predicate pushdown planejado.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU Dados
- Publicado
- 02 de março de 2026
- Fonte
- CEVIU Dados
