ClickHouse completa 10 anos como open source: da análise web interna a referência global em bancos analíticos
Aprofundamento CEVIU
Aprofundamento
O ClickHouse não é só um banco analítico rápido, é uma arquitetura de dados em constante redefinição. Desde o protótipo OLAPServer de 2009, que armazenava colunas inteiras em arquivos binários por dia e site, até a versão 26.4 de maio de 2026 com 39 novos recursos, ele evoluiu como um sistema híbrido: analítico em tempo real, suporte nativo a data lake (com integração a Polaris, Unity e OneLake), busca vetorial para IA e até transacional via Postgres gerenciado com CDC integrado. Isso não é convergência forçada, é adaptação técnica consciente. A reintrodução do tipo Variant em 2025, por exemplo, não foi um retorno ao passado, mas uma resposta à necessidade real de modelagem flexível em pipelines de ML e observabilidade sem sacrificar desempenho.
O CostBench, lançado em 1º de junho de 2026, sintetiza essa maturidade: ele não mede apenas throughput ou latência, mas custo por query efetiva em nuvem, e mostra que o ClickHouse Cloud entrega 23× mais valor por dólar que o concorrente mais próximo. Isso reflete decisões de engenharia profundas: compressão LZ4 desde 2009, processamento em blocos com Processors (sucessores dos Block Streams), e estruturas de dados projetadas para serem lidas em cache L1, não apenas em disco. É um caso raro de projeto que escala horizontalmente sem trocar simplicidade interna por complexidade operacional.
O que mudou
A diferença entre o ClickHouse de 2016 e o de 2026 não está só na escala, está na abrangência funcional. Em 2016, era um DBMS analítico de código aberto com MergeTree e ReplicatedMergeTree baseado em ZooKeeper. Hoje, é uma plataforma de dados unificada: suporta SQL padrão com compatibilidade crescente (incluindo COUNT DISTINCT otimizado na v26.4), executa consultas distribuídas em múltiplas etapas (em private preview no Open House 2026), roda agentes de análise com Claude da Anthropic e integra diretamente com catálogos de data lake modernos, algo impensável na época do primeiro commit em 2009. O salto mais concreto? De um projeto interno com dois protótipos (OLAPServer e Metrage) para uma infraestrutura crítica usada por OpenAI, Tesla e Meta, com receita anualizada de US$ 250 milhões e 4.000 clientes em maio de 2026.
Por que isso importa
Para engenheiros de dados, isso significa menos ferramentas no stack: não precisa escolher entre um data warehouse, um feature store e um sistema de observabilidade. O ClickHouse hoje cobre todos esses papéis com desempenho previsível e custo controlado, especialmente com o CostBench validando a eficiência econômica. Para arquitetos, é uma prova de que sistemas construídos do zero, com foco em localidade de dados, pipeline explícito e remoção contínua de complexidade (como os commits 'remove trash'), podem superar soluções baseadas em forks de PostgreSQL ou DataFusion. E para empresas, é um sinal claro: a linha entre analítico e operacional está se dissolvendo, e o ClickHouse está no centro dessa fusão, não como acréscimo, mas como projeto original.
Linha do tempo
Primeiro commit do projeto, com otimização de funções de tempo em C++
Lançamento do servidor ClickHouse em produção como log persistente com SQL
Implantação do ReplicatedMergeTree com ZooKeeper para alta disponibilidade em múltiplos data centers
Liberação oficial como software livre
Reintrodução do tipo Variant e expansão de suporte a data lake com Polaris e Unity
Lançamento do CostBench e anúncio de consultas distribuídas em múltiplas etapas no ClickHouse Cloud
Comemoração dos 10 anos como open source, com receita anualizada de US$ 250 milhões e 4.000 clientes
Perguntas frequentes
O ClickHouse ainda é só para analytics pesadas, ou já serve para cargas transacionais?
Ele evoluiu além disso. A partir de 2026, com o serviço Postgres gerenciado em parceria com a Ubicloud e CDC integrado, o ClickHouse suporta cargas transacionais com consistência forte. Não substitui 100% um PostgreSQL tradicional, mas permite unificar ingestão, transformação e consulta em um único ambiente, especialmente útil para aplicações que exigem tanto relatórios em tempo real quanto atualizações de estado.
Qual o papel real do CostBench? É só marketing ou muda como avaliamos bancos de dados?
É uma mudança prática. Antes, benchmarks focavam em QPS ou tempo de resposta isolados. O CostBench mede custo por query válida em nuvem, incluindo consumo de CPU, memória, rede e armazenamento. Ele revelou que o ClickHouse Cloud é 23× mais eficiente que o concorrente mais próximo nessa métrica, forçando fornecedores a repensarem suas ofertas de SaaS de dados.
Por que a reintrodução do tipo Variant em 2025 é relevante para engenharia de dados?
Variant permite armazenar valores heterogêneos (strings, números, arrays, objetos JSON) numa única coluna sem conversão prévia, essencial para pipelines de dados não estruturados, logs de IA e eventos de aplicativos modernos. Diferente da versão descartada em 2012, a nova implementação usa codificação especializada e evita penalidades de desempenho, mantendo a velocidade típica do ClickHouse.
Como o ClickHouse lida com a governança de dados em ambientes multi-cloud e data lake?
A partir de 2025, ele suporta nativamente catálogos como Apache Polaris, Unity Catalog, AWS Glue e Microsoft OneLake. Isso permite consultar dados em S3, ADLS ou GCS com controle centralizado de esquema, linhagem e políticas de acesso, sem precisar mover dados para dentro do cluster. É governança descentralizada, mas coordenada.
Fontes
- clickhouse.comfonte original
- Categoria
- CEVIU Dados
- Publicado
- 22 de junho de 2026
- Editoria
- CEVIU Dados

