Todas as notícias

CEVIU DevOps

Ferramentas, tendências e insights para engenheiros DevOps

265 notícias

O Kubernetes 1.36, com lançamento previsto para 22 de abril, introduz 20 novas funcionalidades alpha focadas em workloads de IA/ML e GPU, gerenciamento de clusters em larga escala e eficiência de recursos. Entre elas, destacam-se a preempção workload-aware que trata grupos de pods relacionados como unidades únicas durante o agendamento, streams de API sharded para reduzir o overhead de rede em clusters massivos, e uma integração mais profunda com o Dynamic Resource Allocation que simplifica o gerenciamento de GPUs e hardware especializado. A release também traz APIs gRPC a nível de nó para reduzir a carga do API server, suporte nativo a gang scheduling no Job controller, integração com Prometheus Native Histograms e a capacidade do Horizontal Pod Autoscaler de escalar aplicações para zero réplicas com base em métricas externas como o tamanho da fila.

A Stripe mantém a CI rápida em um monorepo Ruby massivo ao executar apenas um pequeno subconjunto de testes. Isso é feito utilizando a Execução Seletiva de Testes, que rastreia dinamicamente o acesso a arquivos durante as execuções e reexecuta apenas os testes afetados por mudanças no código. Essa abordagem evita análises estáticas não confiáveis, gera grandes economias de compute e mantém a safety por meio de guardrails, como a execução obrigatória de testes críticos ou que falharam anteriormente.

O caching de prompts melhora a latência e reduz custos ao reutilizar estados KV. Contudo, escalar entre réplicas diminui as taxas de acerto do cache, a menos que seja mitigado com afinidade de sessão, roteamento em camadas e balanceamento de carga com reconhecimento de prefixo. O desempenho ideal depende de prompts estruturados, monitoramento e do balanceamento entre os tradeoffs de cache local e compartilhado.

O controlador ingress-nginx do Kubernetes, mantido pela comunidade e utilizado por aproximadamente metade de todos os ambientes cloud-native, encerrou oficialmente suas atividades em março. Isso ocorreu após anos de manutenção por apenas um ou dois voluntários em seu tempo livre, uma situação que se tornou insustentável após a vulnerabilidade IngressNightmare (CVE-2025-1974, CVSS 9.8) expor como atacantes poderiam obter execução remota de código e ler todos os segredos do cluster. A comunidade Kubernetes está agora migrando para implementações de Gateway API como Envoy Gateway, NGINX Gateway Fabric ou Traefik. Enquanto isso, o controlador separado mantido pela F5/NGINX Inc. permanece ativamente suportado e não foi afetado.

A Dropbox aprimorou a eficiência de armazenamento em seu blob store imutável, Magic Pocket, ao introduzir uma estratégia de compactação de três camadas que visa diferentes níveis de fragmentação, desde volumes ligeiramente subutilizados até extremamente esparsos. Essa abordagem adaptativa, combinada com ajuste dinâmico e salvaguardas, reduziu significativamente o overhead de armazenamento e permitiu que o sistema recuperasse espaço mais rapidamente, sem sobrecarregar a infraestrutura em escala de exabytes.

Um bom design de software depende da "preguiça" como virtude, impulsionando engenheiros a criar abstrações simples e poderosas que minimizem o trabalho futuro. No entanto, LLMs carecem dessa restrição e tendem a gerar código excessivo e não refinado quando não supervisionados. Consequentemente, LLMs devem ser usados como ferramentas para apoiar o julgamento e a abstração humana, e não para substituí-los, ou correm o risco de aumentar a complexidade do sistema em vez de aprimorá-lo.

A Datadog lançou uma ferramenta de Static Application Security Testing (SAST) open source nativa de IA. Esta solução utiliza Large Language Models para detectar vulnerabilidades em código com significativamente menos falsos positivos em comparação com as ferramentas tradicionais baseadas em regras.

O verdadeiro propósito de um documento de design é criar um entendimento compartilhado e alignment, e não servir como uma entrega final. O próprio ato de escrevê-lo revela lacunas, esclarece decisões e facilita uma melhor colaboração. Documentos de design eficazes definem claramente o problema, os valores, as opções e os tradeoffs. Eles são desenvolvidos iterativamente com feedback para evitar soluções prematuras e garantir um raciocínio sólido.

O Datadog Code Security MCP mitiga riscos de código gerado por IA, escaneando em tempo real para detectar vulnerabilidades, segredos e dependências inseguras antes da revisão. Ele consolida múltiplas verificações de segurança em um único workflow local, com controles consistentes e overhead de configuração mínimo.

Pulumi agora oferece suporte a Bun como um runtime totalmente compatível, não apenas como um gerenciador de pacotes, a partir da versão 3.227.0. Isso permite que desenvolvedores executem programas Pulumi completos configurando `runtime: bun` no arquivo Pulumi.yaml, eliminando a necessidade de Node.js. A integração proporciona instalação de pacotes mais rápida e suporte nativo para TypeScript. No entanto, atualmente não há suporte para policy packs, serialização de funções ou componentes multi-linguagem, cenários para os quais alguns projetos ainda podem precisar de Node.js.

O Traceroute funciona enviando pacotes com valores de TTL crescentes, fazendo com que cada roteador os descarte em sequência e retorne uma mensagem ICMP de "Time Exceeded". Isso revela o IP de cada hop até que o destino responda com uma mensagem ICMP diferente. Ao repetir este processo com múltiplas sondas e medir os tempos de resposta, o Traceroute mapeia o caminho e a latência do tráfego de rede, embora lacunas possam ocorrer quando os roteadores não enviam respostas.

A Netflix reduziu uma carga massiva de queries redundantes no Apache Druid ao introduzir um caching com reconhecimento de intervalo (interval-aware caching). Essa nova estratégia reutiliza resultados pré-computados e segmentados por tempo (time-bucketed), consultando apenas dados recentes e utilizando TTLs exponenciais que refletem a frescura dos dados. A abordagem troca uma mínima desatualização (staleness) por ganhos significativos de eficiência. Isso resultou na redução do volume de queries, melhoria da latência e na mudança do scaling de infraestrutura de compute cara para uma infraestrutura de cache mais econômica.

Amazon S3 Files é uma nova funcionalidade que permite que qualquer bucket S3 seja montado e acessado como um sistema de arquivos completo diretamente de instâncias EC2, containers ou funções Lambda. Ele oferece latências de aproximadamente 1ms para dados ativos e sincronização bidirecional automática entre o sistema de arquivos e o bucket S3. O serviço está agora disponível em todas as Regiões AWS comerciais e elimina o dilema tradicional entre os benefícios do armazenamento de objetos do S3 e as capacidades interativas dos sistemas de arquivos, tornando-o particularmente útil para workloads colaborativos, como agentes de IA e pipelines de treinamento de ML, que exigem acesso compartilhado e de baixa latência aos dados do S3.

O Ingress NGINX atingiu o fim de vida (EOL) em março, exigindo que as organizações migrem urgentemente para a Kubernetes Gateway API. Esta necessidade surge devido a vulnerabilidades críticas, como CVE-2026-24512 e CVE-2026-3288, que agora não possuem mais correções suportadas. O artigo oferece um guia técnico de migração que aborda a seleção de controllers, o rastreamento de performance de baseline, estratégias de deployment paralelo e procedimentos de cutover de DNS, visando auxiliar as equipes na transição segura do controller de ingress depreciado.

Databricks lançou o suporte em public preview para o Iceberg v3, que introduz Row Lineage para rastreamento de mudanças nos dados, Deletion Vectors para atualizações e deleções 10 vezes mais rápidas, e um tipo VARIANT para consulta de dados semi-estruturados sem imposição de schema. Essa atualização elimina o tradeoff de performance entre Delta Lake e Iceberg através da governança cross-engine do Unity Catalog, permitindo que as equipes escrevam dados uma vez e os leiam em múltiplas plataformas como Snowflake, BigQuery e Redshift sem replicação.

A Meta evitou a "armadilha do fork" ao substituir uma ramificação divergente do WebRTC por uma arquitetura dual-stack, utilizando uma camada de shim que permite que versões legadas e upstream coexistam. Isso possibilitou testes A/B seguros e atualizações contínuas. Combinado com um sistema de feature-branch para o gerenciamento de patches, essa abordagem resultou em melhorias de performance, redução do tamanho do binário e aumento da segurança. Permitiu também um alinhamento contínuo com as releases upstream, eliminando a necessidade de migrações repetidas e custosas.

O GitHub reformulou sua aba 'Files changed' usando React, simplificando árvores de componentes, reduzindo nós DOM e movendo estados complexos para melhorar a memória, a responsividade e as métricas INP. Além disso, a virtualização e otimizações pontuais garantem um desempenho rápido, mesmo em pull requests de grande volume.

Outras categorias