DeepSeek OCR:AI驱动的图像文本识别 - Openclaw Skills
作者:互联网
2026-03-30
什么是 DeepSeek OCR?
DeepSeek OCR 是 Openclaw Skills 的一个强大集成,它利用 DeepSeek-OCR 模型提供高保真文本识别。它允许用户处理本地图像、屏幕截图或下载的远程文件,并将其转换为结构化的 Markdown、纯文本或 JSON。
该技能对于需要数字化纸质文档、从 UI 原型中提取数据或在 AI 辅助工作流中分析复杂视觉信息的开发人员和研究人员特别有用。通过利用 Openclaw Skills 框架,它简化了本地文件系统与强大的视觉语言模型之间的交互。
下载入口:https://github.com/openclaw/skills/tree/main/skills/qianjunye/ucloud-deepseek-ocr
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install ucloud-deepseek-ocr
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 ucloud-deepseek-ocr。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
DeepSeek OCR 应用场景
- 从教程截图中提取代码片段以实现快速应用。
- 将扫描的文档图像转换为可编辑的 Markdown 文件以用于文档编写。
- 将图像素材中的数据表解析为结构化的 JSON 以进行数据分析。
- 在 Openclaw Skills 环境中自动将手写笔记转录为数字文本。
- 用户提供支持格式(如 JPG、PNG 或 WebP)的本地图像文件路径。
- 该技能利用系统二进制文件将图像编码为 Base64 字符串以满足 API 兼容性。
- 编码后的数据连同指定的格式说明(如 Markdown 或 JSON)一起发送到 DeepSeek API 端点。
- AI 模型处理视觉数据并返回识别出的文本。
- 该技能将结果直接输出到终端或调用程序,供进一步处理使用。
DeepSeek OCR 配置指南
要开始使用 Openclaw Skills 库中的此组件,请确保您具备必要的依赖项和配置:
- 安装系统要求:
# 确保 PATH 中包含 curl, jq, 和 base64
- 将您的 API Key 设置为环境变量:
export DEEPSEEK_OCR_API_KEY="your_api_key_here"
- 或通过位于
~/.openclaw/openclaw.json的全局 Openclaw Skills 配置文件进行配置:
{
"skills": {
"deepseek-ocr": {
"apiKey": "YOUR_KEY_HERE"
}
}
}
DeepSeek OCR 数据架构与分类体系
该技能通过将二进制图像文件转换为基于文本的格式来管理数据。下表描述了输入和输出参数:
| 参数 | 描述 | 示例 |
|---|---|---|
| image_path | 本地文件路径 | /path/to/screenshot.png |
| output_format | 期望的文本结构 | markdown, text, json |
Openclaw Skills 内部的元数据确保目标 API 端点(默认为 ModelVerse)正确,并且通过主环境变量安全地处理身份验证。
name: deepseek-ocr
description: OCR text recognition using DeepSeek-OCR model. Use when user asks for OCR, text recognition, image text extraction, screenshot recognition, or converting images to text/markdown.
metadata:
{
"openclaw":
{
"emoji": "??",
"requires": { "bins": ["curl", "jq", "base64"], "env": ["DEEPSEEK_OCR_API_KEY"] },
"primaryEnv": "DEEPSEEK_OCR_API_KEY",
},
}
DeepSeek OCR
Recognize text in images using the DeepSeek-OCR model.
Quick start
{baseDir}/scripts/ocr.sh /path/to/image.jpg
Usage
{baseDir}/scripts/ocr.sh [output_format]
Parameters:
: Local image file (jpg, png, webp, gif, bmp)[output_format]: Optional, defaults tomarkdown. Can betext,json, etc.
Examples
# Convert to markdown (default)
{baseDir}/scripts/ocr.sh /path/to/image.jpg
# Convert to plain text
{baseDir}/scripts/ocr.sh /path/to/image.png text
# Extract table as JSON
{baseDir}/scripts/ocr.sh /path/to/table.jpg "extract table as json"
Remote URL images
The model only supports base64-encoded images. For remote URLs, download first:
curl -s -o /tmp/image.jpg "https://example.com/image.jpg"
{baseDir}/scripts/ocr.sh /tmp/image.jpg
API key
Set DEEPSEEK_OCR_API_KEY, or configure in ~/.openclaw/openclaw.json:
{
skills: {
"deepseek-ocr": {
apiKey: "YOUR_KEY_HERE",
},
},
}
Default API URL: https://api.modelverse.cn/v1/chat/completions Override with DEEPSEEK_OCR_API_URL if needed.
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
信号管道:自动化营销情报工具 - Openclaw Skills
技能收益追踪器:监控 Openclaw 技能并实现变现
AI 合规准备就绪度:评估与治理工具 - Openclaw Skills
FOSMVVM ServerRequest 测试生成器:自动化 API 测试 - Openclaw Skills
酒店搜索器:AI 赋能的住宿与位置情报 - Openclaw Skills
Dub 链接 API:程序化链接管理 - Openclaw Skills
IntercomSwap:P2P BTC 与 USDT 跨链兑换 - Openclaw Skills
spotplay:macOS 原生 Spotify 播放控制 - Openclaw Skills
DeepSeek OCR:AI驱动的图像文本识别 - Openclaw Skills
Web Navigator:自动化网页研究与浏览 - Openclaw Skills
AI精选
