ElasticObservability的Agent能力
作者:互联网
2026-03-24
Agent Skills赋能SRE团队通过自然语言交互实现高效可观测性管理,涵盖应用监控、日志检索、SLO配置等核心场景,显著提升运维自动化水平。
作者:来自Elastic Bahubali Shetti
Elastic Observability提供了广泛的功能,包括配置OpenTelemetry监控、编写ES*QL查询以搜索日志和指标、使用正确的指标类型和公式语法定义SLO、处理噪声告警风暴,以及从多个信号整合服务健康状况。SRE现在希望通过AI Agents进一步自动化。
Elastic的Agent Skills是开源包,为你的AI编码agent提供原生Elastic专业知识。如果你已经使用Elastic Agent Builder,你将获得能够与Observability数据原生协作的AI agent。Elastic Agent Skills直接将原生平台专业知识交付给你的AI编码agent,这样你可以停止调试AI生成的错误,开始交付可直接生产使用的代码,并充分利用Elastic的深度能力。
Skills可用于Elastic Stack的各类专门任务——Elasticsearch、Kibana、Elastic Security、Elastic Observability等。每个skill都存在于自己的文件夹中,包含SKILL.md文件,其中有agent遵循的元数据和指令。
Observability目前发布了五个技能,涵盖SRE和开发者每天执行的核心工作流。运行Elastic Observability涉及广泛的任务:配置OpenTelemetry监控、编写ES*QL查询以搜索日志和指标、使用正确的指标类型和公式语法定义SLO,以及从多个信号整合服务健康状况。每项任务都需要领域专业知识和对特定API、索引模式以及Kibana工作流的熟悉。对于管理跨多个环境的几十个服务的团队来说,这些任务重复、容易出错且耗时。
本文将介绍当前的Observability技能集,展示端到端工作流,并强调这些技能在日常操作中的用途。
现代可观测性工作通常是临时和跨领域的。在一小时内,你可能需要为新服务添加监控、检查某事件的日志、查看错误预算状态,并验证多个信号的服务健康状况。
每一步通常需要不同的API、索引模式和Kibana工作流。Agent Skills将这些任务知识打包为可重用单元,使agent能够一致地执行这些步骤。
当前的可观测性技能集专注于五个相关的工作流:
- 监控应用 为Python、Java或.NET服务添加Elastic版本的OpenTelemetry(跟踪、指标、日志),或帮助从经典Elastic APM agent迁移到EDOT,并配置正确的OTLP端点和设置。
- 搜索日志 提供对Elastic Streams的可见性——这是处理可观测性数据的数据路由和处理层。
- 管理SLO 通过Kibana API创建和管理Elastic Observability中的服务级目标(SLO),覆盖从数据探索到定义、创建和生命周期管理的全过程。
- 评估服务健康 将APM、基础设施指标、日志、SLO和告警的信号整合,提供统一的服务健康视图。
- 观察LLM应用 监控和排查LLM驱动的应用——跟踪令牌使用情况、延迟、错误率以及推理调用中的模型性能。
Agent Skills是自包含的文件夹,包含指令、脚本和资源,AI agent可为特定任务动态加载。Elastic在elastic/agent-skills中发布官方技能,基于Agent Skills标准。
实际使用上,这意味着:
- 你描述目标。
- agent选择相关skill或你指定skill。
- skill应用已知的一致步骤和API模式,以及Elastic推荐的做法。
作为SRE,你收到通知,某个客户出现错误。支持团队尝试排查,但需要帮助,并提供了一个事务ID以供调查。
你已将Elastic的Agent Skills加载到Claude。你向Claude提问:
Claude添加Elastic O11y Skills后,分析该事务的问题:
- 使用log-search skill缩小可能原因范围
- 确定根因
- 并推荐潜在的修复措施

使用skills CLI安装Elastic skills:
npx skills add elastic/agent-skills
直接安装特定skill:
npx skills add elastic/agent-skills --skill logs-search
然后运行你的agent并给它一个面向结果的请求,例如:
My cart service is experiencing some slowness, are there any errors over the last 3 hours? Please give me a summary of these logs.
关键的转变在于请求以结果为先。技能捕获实现细节,例如API顺序、字段预期和验证步骤。
计划的范围包括更广的工作流覆盖。随着技能的成熟,团队可以将它们组合成可重复的操作模式,同时仍支持临时调查。
如果你现在想尝试这个模型,获取Elastic的Agent Skills,从一个服务和一个工作流开始:
- 评估服务健康状况。
- 为一个真实事件运行引导式日志调查。
- 在基线遥测质量到位后添加SLO管理。
- 了解你的LLM对开发者的性能表现。
通过分阶段实施可观测性技能,团队能够逐步实现运维流程的智能化转型,在保证稳定性的前提下提升工作效率。
相关标签:
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
NanoClaw 开源轻量级个人AI助手 安全可靠的OpenClaw替代方案
MonsterClaw 采用 OpenClaw 技术打造的本地化AI运行平台
TinyClaw 由TinyAGI推出的开源轻量级多智能体协作框架
携程酒店业务借助NebulaGraph实现月均风控止损逾百万元
稀宇科技开源MiniMax Office Skills生产级办公文档引擎
ToClaw由ToDesk打造的专业定制AI智能体
TypeNo 免费开源的中文AI语音输入法 无需配置直接使用
Sub2API 开源人工智能API中转网关平台 具备多账户管理功能
阿里通义推出视频生成音频框架PrismAudio
Luma AI发布Uni-1模型实现图像理解与生成一体化
AI精选
