SiliconFlow Vision:为 Openclaw Skills 提供的先进图像分析

作者:互联网

2026-04-14

AI教程

什么是 SiliconFlow Vision?

SiliconFlow Vision 技能是专为 AI 智能体设计的专业级图像识别和分析工具。它利用先进的视觉大语言模型 (VLM) 进行客观的视觉识别,使主智能体能够专注于认知推理和综合分析。通过将“视觉识别”过程分流给 DeepSeek-VL2 或 Qwen2.5-VL 等专业模型,它确保了在任何视觉任务中都能实现高保真的数据提取。

该技能是 Openclaw Skills 生态系统的核心组件,允许开发者集成包括 SiliconFlow、OpenAI 和 Anthropic 在内的多服务商支持。它遵循严格的协议,即由技能处理客观识别,而主智能体执行主观分析,从而确保响应更准确且无幻觉。

下载入口:https://github.com/openclaw/skills/tree/main/skills/lycohana/siliconflow-vision

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install siliconflow-vision

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 siliconflow-vision。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

SiliconFlow Vision 应用场景

  • 从终端截图中提取精确的代码片段或错误信息。
  • 分析复杂的表情包和社交媒体趋势,进行结合语境的解读。
  • 对纸质文档、发票和名片进行高精度的 OCR 识别。
  • 解读技术数据可视化、流程图和建筑图纸。
  • 识别照片中的产品、地标或人物,用于研究目的。
SiliconFlow Vision 工作原理
  1. 用户向主 AI 智能体上传图片或提供 URL。
  2. 主智能体识别视觉输入,并在 Openclaw Skills 框架内执行 siliconflow-vision 脚本。
  3. 该技能通过选定的服务商和模型(例如默认的 SiliconFlow)处理图像。
  4. 生成一份结构化的客观报告,涵盖文本、布局和视觉元素。
  5. 主智能体接收此报告,并将其与内部知识或网络搜索相结合,给出最终答案。

SiliconFlow Vision 配置指南

开始之前,请在 config/default.json 中配置您的 API 密钥或将其设置为环境变量:

# 设置您的 API 密钥
export SILICONFLOW_API_KEY="your_key_here"

# 运行基础图像分析
python scripts/analyze_image.py /path/to/image.jpg

# 使用针对复杂图表的智能模式运行
python scripts/analyze_image.py diagram.png -m smart

SiliconFlow Vision 数据架构与分类体系

该技能生成标准化的输出格式,以确保在 Openclaw Skills 集成中的一致性:

属性 内容类型 描述
图像类型 分类 识别图像是截图、表情包、文档等。
清晰文本 OCR 字符串 完整、准确地提取所有可见的文本元素。
视觉元素 列表 识别画面中所有的关键对象和组件。
布局 结构 描述空间组织和构图。
风格 描述性 定义氛围(例如:极简、幽默、阴暗)。
name: siliconflow-vision
description: |
  图片识别与分析工具。使用视觉大模型识别图片内容,输出详细客观的识别结果供主模型分析。当用户发图片时,主模型必须直接调用此 skill,然后基于识别结果进行分析和回答。支持 SiliconFlow(默认)、OpenAI、Anthropic 等多服务商。

图片识别与分析 Skill

工作流程

用户发图片 → 主模型直接调用 skill → skill 识别图片 → skill 输出详细结果 → 主模型分析+网络搜索 → 给出准确回答

核心原则(重要)

主模型必须遵守:

  1. 必须调用 skill:用户发图片时,主模型必须调用此 skill
  2. 禁止直接回答:不要用 OpenClaw 的 image 工具,不要跳过 skill
  3. skill 只识别:skill 只做客观识别,不做分析解读
  4. 主模型负责思考:分析、联想、回答由主模型完成

正确流程:

用户: [图片] 这个 meme 笑点在哪?

主模型: python scripts/analyze_image.py meme.jpg
       ↓
Skill 输出: 详细识别结果(文字+元素)
       ↓
主模型: 基于识别结果进行分析
       - 如果需要背景知识 → 网络搜索
       - 如果需要验证 → 网络搜索
       ↓
主模型回答: 结合事实的准确解析

错误示范:

? 直接调用 image 工具回答 ? 跳过 skill 自己猜测 ? skill 做过多分析解读 ? 不验证信息就回答

使用方式

脚本调用

# 基本用法(推荐)
python scripts/analyze_image.py /path/to/image.jpg

# 指定自定义问题
python scripts/analyze_image.py image.jpg -q "只提取文字"

# 智能模式(更精准,适合复杂图片)
python scripts/analyze_image.py meme.png -m smart

# 简短输出
python scripts/analyze_image.py screenshot.png -s

# 指定服务商
python scripts/analyze_image.py photo.jpg --provider openai

脚本参数

参数 说明 示例
image 图片路径或 URL /path/to/image.jpg
-q, --question 自定义问题 -q "提取所有文字"
-m, --model 模型选择 -m smart
-s, --short 简短模式 -s
--provider 指定服务商 --provider openai
-c, --compress 压缩图片 -c

支持的服务商

服务商 默认模型 特点 配置键
SiliconFlow deepseek-ai/deepseek-vl2 默认,快速稳定 siliconflow_api_key
OpenAI gpt-4o 通用强大 openai_api_key
Anthropic claude-sonnet-4 推理能力强 anthropic_api_key

模型选择

模式 模型 速度 适用场景
fast deepseek-ai/deepseek-vl2 ~5秒 默认,详细识别日常图片
smart Qwen/Qwen2.5-VL-72B-Instruct ~2分钟 复杂图片、图表、需要精准分析
balanced deepseek-ai/deepseek-vl 待测试 2-turbo 平衡速度与精度

配置说明

文件: config/default.json

{
  "provider": "siliconflow",
  "api_key": "sk-xxx",
  "model": "fast"
}

也可通过环境变量:

  • SILICONFLOW_API_KEY
  • OPENAI_API_KEY
  • ANTHROPIC_API_KEY

Skill 输出格式(优化版)

当识别图片时,skill 会输出:

1. 图片类型:截图/表情包/聊天记录等
2. 清晰文字:完整提取所有文字
3. 画面元素:列出所有视觉元素
4. 整体布局:图片结构
5. 风格氛围:简约/搞笑/暗黑等
6. 其他细节:值得注意的元素

重要原则

  • 只做客观识别,不做分析解读
  • 只做简单描述,不过度思考
  • 文字必须完整准确
  • 让主模型负责思考分析

错误处理

错误 解决方案
API key 失效 检查配置或环境变量
图片不存在 检查路径是否正确
超时 切换到 fast 模式重试
服务商不支持 切换到其他服务商

支持的图片类型

  • ?? 截图:代码错误、聊天记录、网页
  • ?? 表情包/Meme:搞笑图片、网络梗图
  • ?? 文档:表格、合同、发票、名片
  • ?? 图表:数据可视化、流程图
  • ??? 照片:风景、产品、人物

优化历史

2026-02-04 优化

  • ? 修改默认提示词为详细识别模式
  • ? 要求完整提取所有清晰文字
  • ? 要求描述画面元素和布局
  • ? 明确禁止 skill 做分析解读
  • ? 强调主模型负责思考分析
  • ? 强制主模型使用 skill(禁止用 image 工具)

2026-02-06 整合

  • ? 合并 image-understand 功能
  • ? 支持多服务商(SiliconFlow、OpenAI、Anthropic)
  • ? 支持多种图片格式
  • ? 支持图片 URL 和本地路径

相关推荐