Apresentando ARFBench: Um benchmark de resposta a perguntas em séries temporais baseado em incidentes reais
A Datadog apresentou o ARFBench, um benchmark baseado em incidentes reais para avaliar a IA no raciocínio sobre séries temporais. Ele demonstra que os modelos atuais ficam aquém dos especialistas, enquanto um TSFM-VLM híbrido melhora o desempenho, e abordagens combinadas de modelo e especialista alcançam resultados próximos aos sobre-humanos.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU DevOps
- Publicado
- 11 de maio de 2026
- Fonte
- CEVIU DevOps
