视觉 RPA:AI 驱动的桌面自动化 - Openclaw Skills
作者:互联网
2026-04-17
什么是 视觉 RPA 桌面自动化?
视觉 RPA 桌面自动化代表了 Openclaw Skills 库的重大进展,使用户能够通过纯视觉解释自动化任何桌面应用程序。通过利用通义千问视觉模型 (Qwen-VL),该技能绕过了对传统 DOM 或辅助功能 API 的需求,使其能够与遗留软件和现代应用程序进行交互。它通过分析屏幕截图来识别 UI 元素,为标准编程访问受限的跨平台自动化提供了强大的解决方案。
该技能对于需要弥合 AI 推理与本地桌面执行之间差距的开发人员和高级用户特别有价值。无论是打开特定的即时通讯应用还是导航复杂的浏览器界面,Openclaw Skills 套件中的这一项都提供了一个类人交互层,既直观又能够通过自动化分解处理复合指令。
下载入口:https://github.com/openclaw/skills/tree/main/skills/neilhexiaoning-alt/visual-rpa-skill
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install visual-rpa-skill
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 visual-rpa-skill。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
视觉 RPA 桌面自动化 应用场景
- 在微信等应用中自动化消息工作流,包括搜索联系人和发送消息。
- 导航浏览器以执行搜索或与非标准 Web 元素交互。
- 通过右键菜单和图标管理桌面文件和文件夹。
- 向缺乏 API 支持或辅助功能挂钩的软件输入数据。
- 编排需要在窗口和浏览器之间切换的多应用工作流。
- 技能捕获主显示器的屏幕截图,以识别目标元素的粗略缩略图位置。
- 生成全分辨率裁剪图,允许视觉模型执行精确的坐标精细化。
- 系统在精细化后的坐标处执行指定的鼠标或键盘动作。
- 执行屏幕截图验证步骤,在进入下一条指令前确认动作成功。
- 复杂的用户提示会自动分解为原子步骤进行顺序执行。
视觉 RPA 桌面自动化 配置指南
要开始使用此技能,请确保已设置 DASHSCOPE_API_KEY 环境变量。然后,您可以通过指向 Openclaw Skills 目录结构中的脚本路径来通过 CLI 执行任务。
# 设置您的 API 密钥
export DASHSCOPE_API_KEY="your_dashscope_api_key"
# 运行简单任务
python "$env:TAXBOT_ROOT/skills/visual-rpa/scripts/visual_rpa.py" --mode task --task "点击 Chrome 浏览器"
视觉 RPA 桌面自动化 数据架构与分类体系
visual-rpa 技能将其执行数据组织在专门的日志结构中,以方便排除故障。
| 组件 | 详情 |
|---|---|
| 目录 | ./rpa_logs/ 用于存储所有会话数据。 |
| 屏幕截图 | 为每个动作保存,提供执行和验证的视觉证据。 |
| 日志 | 指示 [OK] 或 [FAIL] 状态的逐步控制台输出。 |
| 输入处理 | 使用剪贴板粘贴进行中文文本输入,会暂时覆盖当前的剪贴板状态。 |
name: visual-rpa
description: "Visual RPA desktop automation skill. Use when user asks to operate desktop apps, click icons, open applications, type text in input fields, click buttons, scroll pages, send messages via WeChat or other apps. Uses screen capture and Qwen vision model for pure visual positioning without DOM or accessibility APIs."
Visual RPA Desktop Automation
Auto-execute all steps without waiting for user confirmation between steps.
Desktop automation via screen capture + Qwen vision model (Qwen-VL). No DOM or accessibility API needed.
How it works
- Capture screen -> thumbnail rough positioning
- Full-resolution crop -> precise coordinate refinement
- Execute mouse/keyboard action -> screenshot verification
- Compound instructions automatically decomposed into atomic steps
Usage
Use exec tool to run commands. Script path: $env:TAXBOT_ROOT/skills/visual-rpa/scripts/visual_rpa.py
Requires DASHSCOPE_API_KEY environment variable to be set.
Single task
python "$env:TAXBOT_ROOT/skills/visual-rpa/scripts/visual_rpa.py" --mode task --task "click to open WeChat"
Compound task (auto-decomposed)
python "$env:TAXBOT_ROOT/skills/visual-rpa/scripts/visual_rpa.py" --mode task --task "open WeChat, open File Transfer ch@t, type hello in input box, click send"
Multi-step task (manually specified)
python "$env:TAXBOT_ROOT/skills/visual-rpa/scripts/visual_rpa.py" --mode task --task "click Chrome browser" "type baidu.com in address bar and press enter" "type weather in search box" "click search button"
Skip verification (faster)
python "$env:TAXBOT_ROOT/skills/visual-rpa/scripts/visual_rpa.py" --mode task --no-verify --task "click to open Calculator"
Parameters
| Parameter | Description |
|---|---|
--mode task |
Batch task mode (required) |
--mode interactive |
Interactive mode (default) |
--task "step1" "step2" |
Task instructions, supports multiple |
--no-verify |
Skip post-action verification |
--model MODEL |
Vision model name (default: qwen-vl-max-latest) |
--api-key KEY |
API Key (defaults to DASHSCOPE_API_KEY env var) |
Supported actions
| Action | Example instructions |
|---|---|
| Click | "click start menu", "click Chrome icon" |
| Double click | "double click Recycle Bin on desktop" |
| Right click | "right click on desktop blank area" |
| Type text | "type weather in search box", "type hello in input box" |
| Hotkey | "press Ctrl+C" |
| Scroll | "scroll down the page" |
| Wait | "wait for page to load" |
Instruction tips
- Be specific: "click WeChat icon on taskbar" is better than "open WeChat"
- Instructions can be in Chinese or English, the model understands both
- Complex operations can be written as compound instructions, system auto-decomposes
- For text input: say "type XXX in YYY", system auto-detects as input action
Output format
[OK] Step 0: click to open WeChat
click @ (375,1591)
[OK] Step 1: click File Transfer Assistant in WeChat
click @ (154,97)
[FAIL] Step 2: type hello in input box
type @ (300,1364)
2/3 succeeded
- OK = action succeeded and verified
- FAIL = action failed or verification failed, auto-retries up to 3 times
Common scenarios
Send WeChat message
python "$env:TAXBOT_ROOT/skills/visual-rpa/scripts/visual_rpa.py" --mode task --task "open WeChat, open File Transfer Assistant ch@t, type hello in input box, click send"
Open app and navigate
python "$env:TAXBOT_ROOT/skills/visual-rpa/scripts/visual_rpa.py" --mode task --task "click Chrome browser" "type https://www.baidu.com in address bar and press enter"
Desktop operations
python "$env:TAXBOT_ROOT/skills/visual-rpa/scripts/visual_rpa.py" --mode task --task "right click on desktop blank area" "click New Folder"
Notes
- Each step takes 3-8 seconds (screenshot + API calls + verification)
- Chinese text input uses clipboard paste, will overwrite current clipboard
- Only operates on primary screen
- Logs and screenshots saved in
./rpa_logs/directory for debugging
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
Rey Developer:自主编程最佳实践 - Openclaw Skills
MetaMask 钱包:AI 驱动的加密支付与 DeFi - Openclaw Skills
LinkedIn 海报生成器:专业算法优化 - Openclaw 技能
Human Security:高级交互保护 - Openclaw Skills
GitHub 个人主页 README 生成器:自定义开发者主页 - Openclaw Skills
Fiverr 卖家:自动化自由职业服务与销售 - Openclaw Skills
邮件营销文案撰写专家:高转化序列 - Openclaw Skills
数字产品创作助手:构建并扩展数字资产 - Openclaw Skills
DeepSeek Trader:混合 AI 加密货币信号引擎 - Openclaw Skills
加密货币模拟器:回测交易策略 - Openclaw Skills
AI精选
