AWS lança MCP personalizado para diagnóstico autônomo de nós EKS com DevOps Agent
Aprofundamento CEVIU
Aprofundamento
O novo servidor MCP personalizado para EKS não é só mais uma integração, é a primeira vez que o DevOps Agent consegue atravessar a camada de abstração do Kubernetes e acessar dados de nível de sistema operacional em nós EC2 com granularidade, segurança e auditabilidade. Ele usa o AWS Systems Manager Automation como canal de execução, invocando runbooks como AWSSupport-TroubleshootEKSWorkerNode e estendendo-os com leitura estruturada de iptables, sysctl, journalctl -u kubelet, configurações de CNI (Cilium e Amazon VPC CNI) e até logs de kernel via dmesg. Isso resolve uma lacuna crítica: antes, o agente só enxergava métricas e eventos do plano de controle (como eventos de pod ou logs do API Server), mas não conseguia correlacionar falhas de rede ou DNS com regras de firewall no nó, exatamente o que aconteceu no caso de referência com a falha de DNS induzida.
A arquitetura evita SSH por design: tudo roda dentro do sandbox do Systems Manager, com IAM roles específicas, logs de execução no CloudWatch e rastreamento de alterações no AWS Config. O agente não executa código arbitrário, ele chama funções pré-aprovadas, com contexto de namespace, node label e tempo de vida do diagnóstico. Isso é diferente da abordagem genérica do MCP Server GA, que foca em APIs da AWS, não em diagnóstico de infraestrutura de baixo nível.
O que mudou
Em 24 de abril, o DevOps Agent usava o MCP Server do Salesforce para investigar incidentes de suporte ao cliente, um fluxo orientado a casos, não a infraestrutura. Em 15 de maio, ele já fazia SRE autônomo com telemetria de CloudWatch e Splunk, mas ainda dependia de métricas agregadas. Agora, com o MCP personalizado para EKS, o agente opera diretamente no nó: lê regras de iptables, compara estado de CNI entre nós saudáveis e afetados, e valida configurações de resolv.conf, tudo sem intervenção humana nem acesso SSH. É a primeira vez que ele atua como um 'SRE embarcado' no worker node, não apenas como um analista remoto.
Por que isso importa
Isso reduz o MTTR de falhas de rede e DNS em clusters EKS de horas para minutos, e elimina o risco de erros humanos em diagnósticos manuais. Equipes não precisam mais rodar kubectl debug, ec2-instance-connect ou scripts ad hoc para inspecionar nós. A automação é reproduzível, versionável (via Runbook no SSM) e auditable. Para quem opera clusters em escala, isso significa menos tempo gasto em 'firefighting' e mais capacidade de investir em melhorias proativas de confiabilidade, como testes de falha de CNI ou simulações de perda de pacotes com Chaos Engineering integrado ao mesmo pipeline.
Linha do tempo
AWS DevOps Agent integra-se ao MCP Server do Salesforce para investigação automática de incidentes de suporte
AWS MCP Server entra em general availability com acesso a 15.000+ APIs da AWS via credenciais IAM
AWS DevOps Agent passa a executar workflows SRE autônomos com correlação de CloudWatch, Splunk, GitHub e Slack
Lançamento do servidor MCP personalizado para diagnóstico autônomo de nós EKS com acesso estruturado a iptables, CNI e logs de kernel
Perguntas frequentes
Esse MCP personalizado substitui o AWS Systems Manager Automation?
Não. Ele se integra ao Systems Manager como camada de orquestração. O DevOps Agent chama runbooks existentes (como AWSSupport-TroubleshootEKSWorkerNode) e os estende com leitura estruturada de dados de sistema operacional, sem substituir nenhuma funcionalidade do SSM.
Preciso habilitar OTel Container Insights para usar esse MCP?
Não. O MCP personalizado opera no nível do nó (EC2), independente de métricas de contêiner. Mas ele complementa o OTel Container Insights: enquanto este mostra o que está acontecendo *dentro* dos pods, o MCP mostra o que está bloqueando o tráfego *no nó*, como regras de iptables que impedem o CoreDNS de responder.
Como isso se relaciona com o EKS Hybrid Nodes gateway?
São complementares. O Hybrid Nodes gateway gerencia conectividade entre VPCs e ambientes on-premises. Esse MCP personalizado diagnostica falhas *dentro* dos nós EKS, inclusive em nós híbridos. Se um pod on-prem não resolve DNS, o agente pode identificar se o problema está na regra de iptables no nó EKS ou na configuração de roteamento no gateway.
O acesso a dados de sistema operacional é seguro?
Sim. O acesso é feito via Systems Manager Automation, com IAM roles restritas a operações específicas (como get-parameter, send-command). Nenhum comando arbitráro é executado. Todos os comandos são registrados no CloudTrail e os outputs vão para o CloudWatch Logs com rótulos de cluster e nó.
Fontes
- aws.amazon.comfonte original
- Categoria
- CEVIU DevOps
- Publicado
- 15 de junho de 2026
- Editoria
- CEVIU DevOps
