DigitalOcean amplia Inference Engine com ferramentas server-side nativas

Q: Como o Web Mode funciona na prática?

É um atalho para frameworks que não permitem configuração de ferramentas no payload. Ao usar um modelo URL com o parâmetro ?web_mode=true, o Inference Engine ativa automaticamente Web Search e Web Fetch, sem alterar seu código de integração. Ideal para Claude Code ou LangChain com configuração mínima.

Q: O que custa mais caro: Web Search ou Web Fetch?

Web Search custa US$ 10 por 1000 requisições. Web Fetch custa US$ 3 por 1000 requisições, e é gratuito para modelos Anthropic. As chamadas a MCP Servers e Knowledge Bases não têm custo adicional além dos tokens de inferência padrão.

Q: Posso usar minhas próprias ferramentas com o MCP?

Sim. O MCP é um protocolo aberto. Você pode expor qualquer serviço HTTP como uma ferramenta, basta implementar os endpoints /tools e /execute conforme a especificação. A DigitalOcean fornece SDKs em Go e Python para facilitar a criação de servidores MCP compatíveis.

Q: Essas ferramentas funcionam em todos os modos de inferência?

Sim. Server-Side Tools estão disponíveis em Serverless Inference, Inference Router e Dedicated Inference. Isso significa que você pode usar Web Search em um fluxo de baixa latência com Serverless, rotear tarefas críticas para um modelo dedicado via Inference Router e ainda chamar um MCP server interno, tudo na mesma arquitetura.

19 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

A DigitalOcean não está só adicionando ferramentas ao Inference Engine, está transformando a inferência em um ponto de execução ativa, não passivo. Com Server-Side Tools, o modelo deixa de ser um mero processador de prompts e vira um agente com capacidade real de ação: busca web com Exa (latência <150ms), fetch de PDFs e URLs, acesso a bases de conhecimento indexadas nativamente e chamada direta a APIs internas via MCP, tudo dentro de uma única requisição, sem orquestração externa, sem novos credenciais e sem sair do contexto do token stream.

O diferencial técnico está na integração profunda com o protocolo MCP (Model Context Protocol), que já é adotado por equipes de engenharia de plataformas para expor serviços como bancos de dados, workflows de CI/CD ou sistemas ERP como 'ferramentas' consumíveis por LLMs. Isso elimina a camada intermediária de agent frameworks customizados, algo que ainda exige infraestrutura própria no caso do Amazon Bedrock AgentCore, mesmo com sua nova busca web.

O que mudou

Em 3 de junho, o CEVIU destacou o Serverless Inference como um gateway unificado para +30 modelos. Agora, em 19 de junho, o Inference Engine evoluiu de *executor* para *orquestrador*: as mesmas Model Access Keys que antes acionavam apenas inferência pura agora ativam ferramentas com efeito colateral real, como atualizar um banco de dados via MCP ou disparar um pipeline no GitHub Actions. Não é mais só 'chamar um modelo', mas 'executar uma tarefa end-to-end'. O que era rumor sobre suporte a MCP na Cloud Nativa para IA (anunciada em 28/04) virou realidade operacional com SLA e cobrança por uso.

Por que isso importa

Para equipes de DevOps e engenharia de plataformas, isso reduz drasticamente a curva de adoção de agentes. Não há mais necessidade de manter servidores dedicados para tooling, nem escrever wrappers para Anthropic/OpenAI tools em Python, basta declarar a ferramenta no JSON da requisição e anexar uma Knowledge Base ou MCP server. A economia não é só de custo: é de tempo de desenvolvimento, superfície de ataque (menos código próprio rodando) e complexidade operacional. E, ao contrário do Bedrock AgentCore, que isola a busca web dentro do ambiente AWS, a abordagem da DigitalOcean permite integração franca com qualquer sistema externo, desde um PostgreSQL local até um ERP em data center próprio, desde que exposto via MCP.

Linha do tempo

2026-03-30
DigitalOcean anuncia Agentic Inference Cloud com NVIDIA HGX B300 no GTC 2026
2026-04-27
Lançamento do Dedicated Inference com orquestração nativa de Kubernetes
2026-05-06
Lançamento da Cloud nativa para IA em cinco camadas integradas no evento Deploy 2026
2026-06-01
Inference Router entra em Public Preview com integração ao OpenCode
2026-06-03
Serverless Inference é lançado com acesso a mais de 30 modelos via única chave
2026-06-19
Server-Side Tools entram em Public Preview no Inference Engine

Perguntas frequentes

Como o Web Mode funciona na prática?

É um atalho para frameworks que não permitem configuração de ferramentas no payload. Ao usar um modelo URL com o parâmetro ?web_mode=true, o Inference Engine ativa automaticamente Web Search e Web Fetch, sem alterar seu código de integração. Ideal para Claude Code ou LangChain com configuração mínima.

O que custa mais caro: Web Search ou Web Fetch?

Web Search custa US$ 10 por 1000 requisições. Web Fetch custa US$ 3 por 1000 requisições, e é gratuito para modelos Anthropic. As chamadas a MCP Servers e Knowledge Bases não têm custo adicional além dos tokens de inferência padrão.

Posso usar minhas próprias ferramentas com o MCP?