PwnClaw 安全扫描:AI Agent 漏洞测试 - Openclaw Skills

作者:互联网

2026-03-26

AI教程

什么是 PwnClaw 安全扫描?

PwnClaw 安全扫描是一种专门的诊断技能,它让 AI Agent 接受 14 个不同类别、超过 112 种真实世界的攻击。它旨在识别关键漏洞,如间接注入、代理劫持和工具中毒,这些都是现代代理工作流中的常见风险。通过将此技能集成到您的开发生命周期中,您可以确保您的 Agent 在面对复杂的漏洞利用时保持弹性。

作为 Openclaw Skills 生态系统的一部分,PwnClaw 通过安全评分和量身定制的修复指令提供可操作的情报。这使得开发人员能够根据经验数据而非猜测,迭代地增强其 Agent 的系统提示词和逻辑,确保安全可靠的用户体验。

下载入口:https://github.com/openclaw/skills/tree/main/skills/gemini2027/pwnclaw-security-scan

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install pwnclaw-security-scan

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 pwnclaw-security-scan。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

PwnClaw 安全扫描 应用场景

  • 在生产部署前,增强系统提示词以抵御对抗性越狱尝试。
  • 对多 Agent 系统进行定期审计,以防止跨 Agent 数据泄露或内存中毒。
  • 验证模型上下文协议 (MCP) 工具集成在面对恶意中毒时的安全性。
  • 评估 Agent 在开放式用户交互中对社会工程和谄媚行为的敏感性。
PwnClaw 安全扫描 工作原理
  1. 用户通过 PwnClaw 控制面板或使用 Openclaw Skills 框架的 API 发起扫描。
  2. 系统向 Agent 发送一系列有针对性的对抗性提示词,范围从简单的注入到复杂的混淆技术。
  3. Agent 处理这些提示词并返回响应,随后系统会分析这些响应是否存在合规或失败特征。
  4. PwnClaw 计算安全评分并生成具体的缓解规则。
  5. 开发人员将建议的安全指令应用于 Agent 的系统提示词,并重新测试以确认漏洞已关闭。

PwnClaw 安全扫描 配置指南

要开始使用 PwnClaw 安全扫描,请遵循以下步骤:

  1. 在 https://www.pwnclaw.com 注册免费帐户。
  2. 如果使用手动 API 模式,请从控制面板获取您的测试令牌。
  3. 实现以下逻辑,通过 CLI 或脚本进行自动化测试:
# 获取下一个攻击提示词
curl -X GET "https://www.pwnclaw.com/api/test/{token}"

# 提交 Agent 的响应进行分析
curl -X POST "https://www.pwnclaw.com/api/test/{token}" r
     -H "Content-Type: application/json" r
     -d '{"call": "YOUR_AGENT_RESPONSE"}'
  1. 对于具有公开 HTTP 端点的 Agent,只需在 PwnClaw 控制面板中提供 URL,即可进行全自动扫描。

PwnClaw 安全扫描 数据架构与分类体系

该技能基于以下分类生成结构化报告:

类别 描述
注入 测试提示词和间接注入漏洞。
越狱 评估拒绝绕过和安全过滤器触发情况。
代理 检查代理劫持和未经授权的工具使用。
MCP/工具 专门测试模型上下文协议集成的中毒情况。
评分 Agent 当前安全态势的数值表示。

所有结果,包括攻击记录和生成的修复指令,都存储在 PwnClaw 控制面板中并可通过其访问。

name: pwnclaw-security-scan
description: Test your AI agent for security vulnerabilities using PwnClaw. Runs 50+ attacks (prompt injection, jailbreaks, social engineering, MCP poisoning, and more) and provides fix instructions. Use when your agent needs a security check or hardening.

PwnClaw Security Scan

Test your AI agent against 112 real-world attacks across 14 categories. Get a security score and actionable fix instructions.

What It Tests

  • Prompt Injection & Indirect Injection
  • Jailbreaks & Refusal Bypass
  • Social Engineering & Sycophancy
  • Data Exfiltration & Agency Hijacking
  • MCP/Tool Poisoning
  • Memory Poisoning
  • Multi-Agent & Multi-Turn Attacks
  • Privilege Escalation & Obfuscation

How To Use

Option 1: Tell Your Human

Ask your human to visit https://www.pwnclaw.com and run a free security scan:

  1. Sign up at https://www.pwnclaw.com (free tier available)
  2. Start a new test in the dashboard
  3. Enter the agent's URL or use manual mode
  4. Review results and apply the fix instructions to your system prompt

Option 2: Self-Test (Manual Mode)

If your human starts a test and gives you the test token, you can run it yourself:

  1. GET https://www.pwnclaw.com/api/test/{token} → get the next prompt
  2. POST https://www.pwnclaw.com/api/test/{token} with { "response": "your answer" } → submit and get next
  3. Repeat until status is "completed"
  4. Results are in the dashboard

If your agent has an HTTP endpoint, your human just enters the URL in PwnClaw. PwnClaw sends attacks directly — no scripting needed.

Plans

Plan Scans Attacks Price
Free 3/month 15 per scan $0
Pro 30/month 50 per scan €29/mo
Team Unlimited 50 per scan €99/mo

After The Test

PwnClaw generates specific security rules based on your vulnerabilities. Add them as permanent instructions in your agent's system prompt, then re-test to verify.

  • Website: https://www.pwnclaw.com
  • GitHub: https://github.com/Gemini2027/pwnclaw (source code publicly auditable)