SiliconFlow Vision:为 Openclaw Skills 提供的先进图像分析
作者:互联网
2026-04-14
什么是 SiliconFlow Vision?
SiliconFlow Vision 技能是专为 AI 智能体设计的专业级图像识别和分析工具。它利用先进的视觉大语言模型 (VLM) 进行客观的视觉识别,使主智能体能够专注于认知推理和综合分析。通过将“视觉识别”过程分流给 DeepSeek-VL2 或 Qwen2.5-VL 等专业模型,它确保了在任何视觉任务中都能实现高保真的数据提取。
该技能是 Openclaw Skills 生态系统的核心组件,允许开发者集成包括 SiliconFlow、OpenAI 和 Anthropic 在内的多服务商支持。它遵循严格的协议,即由技能处理客观识别,而主智能体执行主观分析,从而确保响应更准确且无幻觉。
下载入口:https://github.com/openclaw/skills/tree/main/skills/lycohana/siliconflow-vision
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install siliconflow-vision
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 siliconflow-vision。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
SiliconFlow Vision 应用场景
- 从终端截图中提取精确的代码片段或错误信息。
- 分析复杂的表情包和社交媒体趋势,进行结合语境的解读。
- 对纸质文档、发票和名片进行高精度的 OCR 识别。
- 解读技术数据可视化、流程图和建筑图纸。
- 识别照片中的产品、地标或人物,用于研究目的。
- 用户向主 AI 智能体上传图片或提供 URL。
- 主智能体识别视觉输入,并在 Openclaw Skills 框架内执行 siliconflow-vision 脚本。
- 该技能通过选定的服务商和模型(例如默认的 SiliconFlow)处理图像。
- 生成一份结构化的客观报告,涵盖文本、布局和视觉元素。
- 主智能体接收此报告,并将其与内部知识或网络搜索相结合,给出最终答案。
SiliconFlow Vision 配置指南
开始之前,请在 config/default.json 中配置您的 API 密钥或将其设置为环境变量:
# 设置您的 API 密钥
export SILICONFLOW_API_KEY="your_key_here"
# 运行基础图像分析
python scripts/analyze_image.py /path/to/image.jpg
# 使用针对复杂图表的智能模式运行
python scripts/analyze_image.py diagram.png -m smart
SiliconFlow Vision 数据架构与分类体系
该技能生成标准化的输出格式,以确保在 Openclaw Skills 集成中的一致性:
| 属性 | 内容类型 | 描述 |
|---|---|---|
| 图像类型 | 分类 | 识别图像是截图、表情包、文档等。 |
| 清晰文本 | OCR 字符串 | 完整、准确地提取所有可见的文本元素。 |
| 视觉元素 | 列表 | 识别画面中所有的关键对象和组件。 |
| 布局 | 结构 | 描述空间组织和构图。 |
| 风格 | 描述性 | 定义氛围(例如:极简、幽默、阴暗)。 |
name: siliconflow-vision
description: |
图片识别与分析工具。使用视觉大模型识别图片内容,输出详细客观的识别结果供主模型分析。当用户发图片时,主模型必须直接调用此 skill,然后基于识别结果进行分析和回答。支持 SiliconFlow(默认)、OpenAI、Anthropic 等多服务商。
图片识别与分析 Skill
工作流程
用户发图片 → 主模型直接调用 skill → skill 识别图片 → skill 输出详细结果 → 主模型分析+网络搜索 → 给出准确回答
核心原则(重要)
主模型必须遵守:
- 必须调用 skill:用户发图片时,主模型必须调用此 skill
- 禁止直接回答:不要用 OpenClaw 的
image工具,不要跳过 skill - skill 只识别:skill 只做客观识别,不做分析解读
- 主模型负责思考:分析、联想、回答由主模型完成
正确流程:
用户: [图片] 这个 meme 笑点在哪?
主模型: python scripts/analyze_image.py meme.jpg
↓
Skill 输出: 详细识别结果(文字+元素)
↓
主模型: 基于识别结果进行分析
- 如果需要背景知识 → 网络搜索
- 如果需要验证 → 网络搜索
↓
主模型回答: 结合事实的准确解析
错误示范:
? 直接调用 image 工具回答 ? 跳过 skill 自己猜测 ? skill 做过多分析解读 ? 不验证信息就回答
使用方式
脚本调用
# 基本用法(推荐)
python scripts/analyze_image.py /path/to/image.jpg
# 指定自定义问题
python scripts/analyze_image.py image.jpg -q "只提取文字"
# 智能模式(更精准,适合复杂图片)
python scripts/analyze_image.py meme.png -m smart
# 简短输出
python scripts/analyze_image.py screenshot.png -s
# 指定服务商
python scripts/analyze_image.py photo.jpg --provider openai
脚本参数
| 参数 | 说明 | 示例 |
|---|---|---|
image |
图片路径或 URL | /path/to/image.jpg |
-q, --question |
自定义问题 | -q "提取所有文字" |
-m, --model |
模型选择 | -m smart |
-s, --short |
简短模式 | -s |
--provider |
指定服务商 | --provider openai |
-c, --compress |
压缩图片 | -c |
支持的服务商
| 服务商 | 默认模型 | 特点 | 配置键 |
|---|---|---|---|
| SiliconFlow | deepseek-ai/deepseek-vl2 | 默认,快速稳定 | siliconflow_api_key |
| OpenAI | gpt-4o | 通用强大 | openai_api_key |
| Anthropic | claude-sonnet-4 | 推理能力强 | anthropic_api_key |
模型选择
| 模式 | 模型 | 速度 | 适用场景 |
|---|---|---|---|
| fast | deepseek-ai/deepseek-vl2 | ~5秒 | 默认,详细识别日常图片 |
| smart | Qwen/Qwen2.5-VL-72B-Instruct | ~2分钟 | 复杂图片、图表、需要精准分析 |
| balanced | deepseek-ai/deepseek-vl 待测试 | 2-turbo | 平衡速度与精度 |
配置说明
文件: config/default.json
{
"provider": "siliconflow",
"api_key": "sk-xxx",
"model": "fast"
}
也可通过环境变量:
SILICONFLOW_API_KEYOPENAI_API_KEYANTHROPIC_API_KEY
Skill 输出格式(优化版)
当识别图片时,skill 会输出:
1. 图片类型:截图/表情包/聊天记录等
2. 清晰文字:完整提取所有文字
3. 画面元素:列出所有视觉元素
4. 整体布局:图片结构
5. 风格氛围:简约/搞笑/暗黑等
6. 其他细节:值得注意的元素
重要原则:
- 只做客观识别,不做分析解读
- 只做简单描述,不过度思考
- 文字必须完整准确
- 让主模型负责思考分析
错误处理
| 错误 | 解决方案 |
|---|---|
| API key 失效 | 检查配置或环境变量 |
| 图片不存在 | 检查路径是否正确 |
| 超时 | 切换到 fast 模式重试 |
| 服务商不支持 | 切换到其他服务商 |
支持的图片类型
- ?? 截图:代码错误、聊天记录、网页
- ?? 表情包/Meme:搞笑图片、网络梗图
- ?? 文档:表格、合同、发票、名片
- ?? 图表:数据可视化、流程图
- ??? 照片:风景、产品、人物
优化历史
2026-02-04 优化:
- ? 修改默认提示词为详细识别模式
- ? 要求完整提取所有清晰文字
- ? 要求描述画面元素和布局
- ? 明确禁止 skill 做分析解读
- ? 强调主模型负责思考分析
- ? 强制主模型使用 skill(禁止用 image 工具)
2026-02-06 整合:
- ? 合并 image-understand 功能
- ? 支持多服务商(SiliconFlow、OpenAI、Anthropic)
- ? 支持多种图片格式
- ? 支持图片 URL 和本地路径
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
CI 生成器:自动化 GitHub Actions 工作流 - Openclaw Skills
Bundle Checker:AI 驱动的 JS 包体积优化 - Openclaw Skills
AI 备份脚本生成器:自动执行数据库备份 - Openclaw Skills
录用信生成器:专业招聘文档自动化 - Openclaw Skills
MCP Hub 技能:连接 1200+ AI 代理工具 - Openclaw Skills
HTML 幻灯片:构建交互式 reveal.js 演示文稿 - Openclaw Skills
Doc Pipeline:文档工作流自动化 - Openclaw Skills
批量转换:自动化多格式文档管线 - Openclaw Skills
Soul World:AI 智能体社交模拟平台 - Openclaw Skills
agent-sims:社交 AI 智能体模拟平台 - Openclaw Skills
AI精选
