Gráficos de web em nível de host e domínio de abril, maio e junho de 2026
Aprofundamento CEVIU
Aprofundamento
A Common Crawl lançou seus mais recentes web graphs em nível de host e domínio, abrangendo os crawls de abril, maio e junho de 2026. O gráfico de nível de host conta com 247,3 milhões de nós e 6,3 bilhões de arestas, enquanto o gráfico de nível de domínio agrega esses dados em domínios de nível de pagamento (PLDs) com 121,1 milhões de nós e 3,9 bilhões de arestas. Esses conjuntos de dados são fundamentais para pesquisa em áreas como análise de grafos, detecção de spam de links e desenvolvimento de algoritmos de ranqueamento, permitindo estudos em larga escala sem a necessidade de os pesquisadores gerenciarem seus próprios crawlers.
Os dados incluem métricas como o número de nós pendentes e o tamanho do maior componente fortemente conectado, oferecendo insights sobre a estrutura e a conectividade da web. A notação de nomes de host em formato de domínio reverso, como 'com.example.www', é utilizada para padronização. Informações sobre os formatos, pipeline de processamento e scripts para reprodução estão disponíveis nos repositórios cc-webgraph e cc-pyspark, além de notebooks de exemplo para exploração dos dados.
Por que isso importa
A publicação desses web graphs em larga escala pela Common Crawl democratiza o acesso a dados complexos sobre a estrutura da internet. Para pesquisadores e engenheiros de dados, isso significa a possibilidade de realizar análises aprofundadas sobre a conectividade e a hierarquia da web, identificar tendências de links e desenvolver novas abordagens para o ranqueamento de conteúdo e a detecção de atividades maliciosas ou artificiais. A disponibilidade desses dados no AWS S3 e via HTTPS facilita a integração em fluxos de trabalho analíticos e de machine learning, acelerando o ciclo de pesquisa e desenvolvimento.
Linha do tempo
Início do crawl CC-MAIN-2026-17
Início do crawl CC-MAIN-2026-21
Atualização da lista de sufixos públicos (versão e596036)
Início do crawl CC-MAIN-2026-25
Lançamento dos web graphs de abril, maio e junho de 2026
Perguntas frequentes
Qual a diferença entre web graphs de nível de host e de domínio?
O gráfico de nível de host detalha as conexões entre nomes de host individuais (ex: www.exemplo.com). Já o gráfico de nível de domínio agrega essas informações em domínios de nível de pagamento (PLDs), focando nas relações entre domínios de alto nível (ex: exemplo.com).
O que são 'nós pendentes' (dangling nodes)?
São nós (hosts ou domínios) que são referenciados por links em páginas rastreadas, mas que não foram rastreados pela Common Crawl, ou que não possuem links para outros hosts, ou ainda que retornaram erros durante o rastreamento.
Como os dados podem ser utilizados em pesquisa?
Os web graphs são úteis para análise de grafos, detecção de spam, desenvolvimento de algoritmos de ranqueamento, estudos de influência e compreensão da arquitetura da web, tudo isso sem a necessidade de executar um crawler próprio.
Fontes
- commoncrawl.orgfonte original
- Categoria
- CEVIU Dados
- Publicado
- 29 de junho de 2026
- Editoria
- CEVIU Dados

