Como o Airbnb evoluiu sua arquitetura de dados para um mundo multiplataforma
Aprofundamento CEVIU
Aprofundamento
O Airbnb evoluiu sua arquitetura de dados offline para um ecossistema multiplataforma — composto por Homes, Experiences (relançado em 2024) e Services (lançado em maio de 2025) — com uma transformação estrutural que vai muito além da migração para serviços. A base atual é uma arquitetura Lakehouse unificada no Amazon S3 com tabelas Apache Iceberg, substituindo gradualmente os clusters HDFS legados que armazenavam dezenas de petabytes. Essa mudança habilita ACID, viagem no tempo e compactação automática, essenciais para manter consistência entre domínios distintos. O processamento é orquestrado pelo Apache Airflow (criado internamente), executado sobre Spark, e consultado via Trino (antigo Presto), permitindo análises interativas em escala. Paralelamente, o grafo de conhecimento do Airbnb atingiu 7 bilhões de nós e 11 bilhões de arestas em 2024, alimentando sistemas críticos de Confiança e Segurança com latência subsegundo.
Essa evolução foi impulsionada pela necessidade de evitar silos entre produtos: modelos específicos como 'experiences_booking' são isolados, mas conceitos transversais — como 'payment', 'user_identity' e 'messaging' — seguem modelos monolíticos padronizados, com identificadores nomeados de forma consistente (ex.: user_id, booking_id) e namespaces claros (ex.: airbnb.core, airbnb.experiences). A ausência de modelos híbridos — ou seja, nenhum modelo mistura lógica de produto com regra de negócio transversal — garante manutenibilidade e evita conflitos de propriedade entre equipes.
Por que isso importa
Essa arquitetura importa porque resolve um dilema clássico de empresas em escala: como manter agilidade de produto sem sacrificar integridade de dados. Ao adotar uma abordagem de modelagem orientada a domínios com fronteiras rígidas e padrões obrigatórios, o Airbnb conseguiu escalar suas operações de dados para mais de 35 bilhões de eventos diários no Apache Kafka, sem que novos lançamentos — como o Services em maio de 2025 — gerem dívida técnica ou duplicação de pipelines. Isso reduz o tempo médio para produção de relatórios analíticos de dias para horas e permite que cientistas de dados estejam integrados diretamente às equipes de produto desde 2015, tornando a tomada de decisões verdadeiramente orientada a dados — não apenas em nível tático, mas estratégico.
Impacto para desenvolvedores
Para engenheiros de dados e desenvolvedores, o impacto é direto: o Dataportal (catálogo interno) e a Minerva API (abordagem métrica-cêntrica) eliminam a necessidade de saber onde os dados residem fisicamente — basta consultar minerva://metrics/booking_cancellation_rate ou minerva://dimensions/user_country. Além disso, o Mussel v2 — key-value store reescrito com NewSQL — oferece SLA de 99,99% e latência média de 5 ms, sendo usado em cenários críticos como verificação antifraude em tempo real e personalização dinâmica. Ferramentas como NLP para análise de avaliações e ML para classificação de imagens de listagens também dependem dessa infraestrutura unificada, demonstrando que a evolução da arquitetura de dados do Airbnb não é só sobre armazenamento, mas sobre capacitar toda a cadeia de valor de dados — desde ingestão até insight acionável.
Perguntas frequentes
Qual é a arquitetura de dados atual do Airbnb?
A arquitetura de dados atual do Airbnb é uma Lakehouse baseada em Amazon S3 + Apache Iceberg, substituindo progressivamente os clusters HDFS. Usa Apache Kafka para ingestão de eventos (35 bilhões/dia), Apache Spark para processamento em lote, Trino para consultas SQL interativas e Airflow (criado internamente) para orquestração de pipelines.
O que é o Iceberg no contexto da arquitetura de dados do Airbnb?
O Apache Iceberg é o formato de tabela aberta adotado pelo Airbnb para seu data warehouse moderno no S3. Ele habilita transações ACID, viagem no tempo (time travel), snapshot isolation e compactação eficiente — fundamentais para garantir consistência entre modelos de dados de Homes, Experiences e Services sem conflitos.
Como o Airbnb lida com a integração de novos produtos como Services?
O Airbnb lida com novos produtos como Services (lançado em maio de 2025) usando uma estrutura de modelagem de dados com três princípios: ausência de modelos híbridos, padronização rigorosa de identificadores (ex.: user_id) e namespaces claros (ex.: airbnb.services). Modelos específicos são isolados, mas conceitos transversais como pagamentos seguem modelos monolíticos compartilhados.
O que é o Mussel v2 e qual seu papel na arquitetura de dados do Airbnb?
O Mussel v2 é o key-value store central do Airbnb, reescrito com backend NewSQL e em produção desde 2023. Oferece latência média de 5 ms e SLA de 99,99%, sendo usado em casos de uso em tempo real como detecção de fraude, verificação de identidade e personalização instantânea — integrando-se diretamente à camada de dados offline e ao grafo de conhecimento.
Links relacionados
- Categoria
- CEVIU Dados
- Publicado
- 11 de junho de 2026
- Fonte
- CEVIU Dados
