SiliconFlow Vision：为 Openclaw Skills 提供的先进图像分析-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

SiliconFlow Vision：为 Openclaw Skills 提供的先进图像分析

作者：互联网

2026-04-14

AI教程

什么是 SiliconFlow Vision？

SiliconFlow Vision 技能是专为 AI 智能体设计的专业级图像识别和分析工具。它利用先进的视觉大语言模型 (VLM) 进行客观的视觉识别，使主智能体能够专注于认知推理和综合分析。通过将“视觉识别”过程分流给 DeepSeek-VL2 或 Qwen2.5-VL 等专业模型，它确保了在任何视觉任务中都能实现高保真的数据提取。

该技能是 Openclaw Skills 生态系统的核心组件，允许开发者集成包括 SiliconFlow、OpenAI 和 Anthropic 在内的多服务商支持。它遵循严格的协议，即由技能处理客观识别，而主智能体执行主观分析，从而确保响应更准确且无幻觉。

下载入口:https://github.com/openclaw/skills/tree/main/skills/lycohana/siliconflow-vision

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install siliconflow-vision

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级：工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 siliconflow-vision。如果尚未安装 Clawhub，请先安装（npm i -g clawhub）。

SiliconFlow Vision 应用场景

从终端截图中提取精确的代码片段或错误信息。
分析复杂的表情包和社交媒体趋势，进行结合语境的解读。
对纸质文档、发票和名片进行高精度的 OCR 识别。
解读技术数据可视化、流程图和建筑图纸。
识别照片中的产品、地标或人物，用于研究目的。

SiliconFlow Vision 工作原理

用户向主 AI 智能体上传图片或提供 URL。
主智能体识别视觉输入，并在 Openclaw Skills 框架内执行 siliconflow-vision 脚本。
该技能通过选定的服务商和模型（例如默认的 SiliconFlow）处理图像。
生成一份结构化的客观报告，涵盖文本、布局和视觉元素。
主智能体接收此报告，并将其与内部知识或网络搜索相结合，给出最终答案。

SiliconFlow Vision 配置指南

开始之前，请在 config/default.json 中配置您的 API 密钥或将其设置为环境变量：

# 设置您的 API 密钥
export SILICONFLOW_API_KEY="your_key_here"

# 运行基础图像分析
python scripts/analyze_image.py /path/to/image.jpg

# 使用针对复杂图表的智能模式运行
python scripts/analyze_image.py diagram.png -m smart

SiliconFlow Vision 数据架构与分类体系

该技能生成标准化的输出格式，以确保在 Openclaw Skills 集成中的一致性：

属性	内容类型	描述
图像类型	分类	识别图像是截图、表情包、文档等。
清晰文本	OCR 字符串	完整、准确地提取所有可见的文本元素。
视觉元素	列表	识别画面中所有的关键对象和组件。
布局	结构	描述空间组织和构图。
风格	描述性	定义氛围（例如：极简、幽默、阴暗）。

name: siliconflow-vision
description: |
  图片识别与分析工具。使用视觉大模型识别图片内容，输出详细客观的识别结果供主模型分析。当用户发图片时，主模型必须直接调用此 skill，然后基于识别结果进行分析和回答。支持 SiliconFlow（默认）、OpenAI、Anthropic 等多服务商。

图片识别与分析 Skill

工作流程

用户发图片 → 主模型直接调用 skill → skill 识别图片 → skill 输出详细结果 → 主模型分析+网络搜索 → 给出准确回答

核心原则（重要）

主模型必须遵守：

必须调用 skill：用户发图片时，主模型必须调用此 skill
禁止直接回答：不要用 OpenClaw 的 image 工具，不要跳过 skill
skill 只识别：skill 只做客观识别，不做分析解读
主模型负责思考：分析、联想、回答由主模型完成

正确流程：

用户: [图片] 这个 meme 笑点在哪？

主模型: python scripts/analyze_image.py meme.jpg
       ↓
Skill 输出: 详细识别结果（文字+元素）
       ↓
主模型: 基于识别结果进行分析
       - 如果需要背景知识 → 网络搜索
       - 如果需要验证 → 网络搜索
       ↓
主模型回答: 结合事实的准确解析

错误示范：

? 直接调用 image 工具回答 ? 跳过 skill 自己猜测 ? skill 做过多分析解读 ? 不验证信息就回答

使用方式

脚本调用

# 基本用法（推荐）
python scripts/analyze_image.py /path/to/image.jpg

# 指定自定义问题
python scripts/analyze_image.py image.jpg -q "只提取文字"

# 智能模式（更精准，适合复杂图片）
python scripts/analyze_image.py meme.png -m smart

# 简短输出
python scripts/analyze_image.py screenshot.png -s

# 指定服务商
python scripts/analyze_image.py photo.jpg --provider openai

脚本参数

参数	说明	示例
`image`	图片路径或 URL	`/path/to/image.jpg`
`-q, --question`	自定义问题	`-q "提取所有文字"`
`-m, --model`	模型选择	`-m smart`
`-s, --short`	简短模式	`-s`
`--provider`	指定服务商	`--provider openai`
`-c, --compress`	压缩图片	`-c`

支持的服务商

服务商	默认模型	特点	配置键
SiliconFlow	deepseek-ai/deepseek-vl2	默认，快速稳定	`siliconflow_api_key`
OpenAI	gpt-4o	通用强大	`openai_api_key`
Anthropic	claude-sonnet-4	推理能力强	`anthropic_api_key`

模型选择

模式	模型	速度	适用场景
fast	deepseek-ai/deepseek-vl2	~5秒	默认，详细识别日常图片
smart	Qwen/Qwen2.5-VL-72B-Instruct	~2分钟	复杂图片、图表、需要精准分析
balanced	deepseek-ai/deepseek-vl 待测试	2-turbo	平衡速度与精度

配置说明

文件: config/default.json

{
  "provider": "siliconflow",
  "api_key": "sk-xxx",
  "model": "fast"
}

也可通过环境变量:

SILICONFLOW_API_KEY
OPENAI_API_KEY
ANTHROPIC_API_KEY

Skill 输出格式（优化版）

当识别图片时，skill 会输出：

1. 图片类型：截图/表情包/聊天记录等
2. 清晰文字：完整提取所有文字
3. 画面元素：列出所有视觉元素
4. 整体布局：图片结构
5. 风格氛围：简约/搞笑/暗黑等
6. 其他细节：值得注意的元素

重要原则：

只做客观识别，不做分析解读
只做简单描述，不过度思考
文字必须完整准确
让主模型负责思考分析

错误处理

错误	解决方案
API key 失效	检查配置或环境变量
图片不存在	检查路径是否正确
超时	切换到 fast 模式重试
服务商不支持	切换到其他服务商

支持的图片类型

?? 截图：代码错误、聊天记录、网页
?? 表情包/Meme：搞笑图片、网络梗图
?? 文档：表格、合同、发票、名片
?? 图表：数据可视化、流程图
??? 照片：风景、产品、人物

优化历史

2026-02-04 优化：

? 修改默认提示词为详细识别模式
? 要求完整提取所有清晰文字
? 要求描述画面元素和布局
? 明确禁止 skill 做分析解读
? 强调主模型负责思考分析
? 强制主模型使用 skill（禁止用 image 工具）

2026-02-06 整合：

? 合并 image-understand 功能
? 支持多服务商（SiliconFlow、OpenAI、Anthropic）
? 支持多种图片格式
? 支持图片 URL 和本地路径

上一篇：MCP (Model Context Protocol) 原理与实战下一篇：快手网页版怎么开-快手网页版直接打开方法