ElasticObservability的Agent能力

作者:互联网

2026-03-24

AI模型库

Agent Skills赋能SRE团队通过自然语言交互实现高效可观测性管理,涵盖应用监控、日志检索、SLO配置等核心场景,显著提升运维自动化水平。

作者:来自Elastic Bahubali Shetti

Elastic Observability提供了广泛的功能,包括配置OpenTelemetry监控、编写ES*QL查询以搜索日志和指标、使用正确的指标类型和公式语法定义SLO、处理噪声告警风暴,以及从多个信号整合服务健康状况。SRE现在希望通过AI Agents进一步自动化。

Elastic的Agent Skills是开源包,为你的AI编码agent提供原生Elastic专业知识。如果你已经使用Elastic Agent Builder,你将获得能够与Observability数据原生协作的AI agent。Elastic Agent Skills直接将原生平台专业知识交付给你的AI编码agent,这样你可以停止调试AI生成的错误,开始交付可直接生产使用的代码,并充分利用Elastic的深度能力。

Skills可用于Elastic Stack的各类专门任务——Elasticsearch、Kibana、Elastic Security、Elastic Observability等。每个skill都存在于自己的文件夹中,包含SKILL.md文件,其中有agent遵循的元数据和指令。

Observability目前发布了五个技能,涵盖SRE和开发者每天执行的核心工作流。运行Elastic Observability涉及广泛的任务:配置OpenTelemetry监控、编写ES*QL查询以搜索日志和指标、使用正确的指标类型和公式语法定义SLO,以及从多个信号整合服务健康状况。每项任务都需要领域专业知识和对特定API、索引模式以及Kibana工作流的熟悉。对于管理跨多个环境的几十个服务的团队来说,这些任务重复、容易出错且耗时。

本文将介绍当前的Observability技能集,展示端到端工作流,并强调这些技能在日常操作中的用途。

现代可观测性工作通常是临时和跨领域的。在一小时内,你可能需要为新服务添加监控、检查某事件的日志、查看错误预算状态,并验证多个信号的服务健康状况。

每一步通常需要不同的API、索引模式和Kibana工作流。Agent Skills将这些任务知识打包为可重用单元,使agent能够一致地执行这些步骤。

当前的可观测性技能集专注于五个相关的工作流:

  1. 监控应用 为Python、Java或.NET服务添加Elastic版本的OpenTelemetry(跟踪、指标、日志),或帮助从经典Elastic APM agent迁移到EDOT,并配置正确的OTLP端点和设置。
  2. 搜索日志 提供对Elastic Streams的可见性——这是处理可观测性数据的数据路由和处理层。
  3. 管理SLO 通过Kibana API创建和管理Elastic Observability中的服务级目标(SLO),覆盖从数据探索到定义、创建和生命周期管理的全过程。
  4. 评估服务健康 将APM、基础设施指标、日志、SLO和告警的信号整合,提供统一的服务健康视图。
  5. 观察LLM应用 监控和排查LLM驱动的应用——跟踪令牌使用情况、延迟、错误率以及推理调用中的模型性能。

Agent Skills是自包含的文件夹,包含指令、脚本和资源,AI agent可为特定任务动态加载。Elastic在elastic/agent-skills中发布官方技能,基于Agent Skills标准。

实际使用上,这意味着:

  1. 你描述目标。
  2. agent选择相关skill或你指定skill。
  3. skill应用已知的一致步骤和API模式,以及Elastic推荐的做法。

作为SRE,你收到通知,某个客户出现错误。支持团队尝试排查,但需要帮助,并提供了一个事务ID以供调查。

你已将Elastic的Agent Skills加载到Claude。你向Claude提问:

Claude添加Elastic O11y Skills后,分析该事务的问题:

  1. 使用log-search skill缩小可能原因范围
  2. 确定根因
  3. 并推荐潜在的修复措施

使用skills CLI安装Elastic skills:

npx skills add elastic/agent-skills

直接安装特定skill:

npx skills add elastic/agent-skills --skill logs-search 

然后运行你的agent并给它一个面向结果的请求,例如:

My cart service is experiencing some slowness, are there any errors over the last 3 hours? Please give me a summary of these logs.

关键的转变在于请求以结果为先。技能捕获实现细节,例如API顺序、字段预期和验证步骤。

计划的范围包括更广的工作流覆盖。随着技能的成熟,团队可以将它们组合成可重复的操作模式,同时仍支持临时调查。

如果你现在想尝试这个模型,获取Elastic的Agent Skills,从一个服务和一个工作流开始:

  1. 评估服务健康状况。
  2. 为一个真实事件运行引导式日志调查。
  3. 在基线遥测质量到位后添加SLO管理。
  4. 了解你的LLM对开发者的性能表现。

通过分阶段实施可观测性技能,团队能够逐步实现运维流程的智能化转型,在保证稳定性的前提下提升工作效率。

相关标签:

AgentSkills 可观测性 OpenTelemetry