DeepSeek OCR：AI驱动的图像文本识别 - Openclaw Skills-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

DeepSeek OCR：AI驱动的图像文本识别 - Openclaw Skills

作者：互联网

2026-03-30

AI教程

什么是 DeepSeek OCR？

DeepSeek OCR 是 Openclaw Skills 的一个强大集成，它利用 DeepSeek-OCR 模型提供高保真文本识别。它允许用户处理本地图像、屏幕截图或下载的远程文件，并将其转换为结构化的 Markdown、纯文本或 JSON。

该技能对于需要数字化纸质文档、从 UI 原型中提取数据或在 AI 辅助工作流中分析复杂视觉信息的开发人员和研究人员特别有用。通过利用 Openclaw Skills 框架，它简化了本地文件系统与强大的视觉语言模型之间的交互。

下载入口:https://github.com/openclaw/skills/tree/main/skills/qianjunye/ucloud-deepseek-ocr

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install ucloud-deepseek-ocr

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级：工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 ucloud-deepseek-ocr。如果尚未安装 Clawhub，请先安装（npm i -g clawhub）。

DeepSeek OCR 应用场景

从教程截图中提取代码片段以实现快速应用。
将扫描的文档图像转换为可编辑的 Markdown 文件以用于文档编写。
将图像素材中的数据表解析为结构化的 JSON 以进行数据分析。
在 Openclaw Skills 环境中自动将手写笔记转录为数字文本。

DeepSeek OCR 工作原理

用户提供支持格式（如 JPG、PNG 或 WebP）的本地图像文件路径。
该技能利用系统二进制文件将图像编码为 Base64 字符串以满足 API 兼容性。
编码后的数据连同指定的格式说明（如 Markdown 或 JSON）一起发送到 DeepSeek API 端点。
AI 模型处理视觉数据并返回识别出的文本。
该技能将结果直接输出到终端或调用程序，供进一步处理使用。

DeepSeek OCR 配置指南

要开始使用 Openclaw Skills 库中的此组件，请确保您具备必要的依赖项和配置：

安装系统要求：

# 确保 PATH 中包含 curl, jq, 和 base64

将您的 API Key 设置为环境变量：

export DEEPSEEK_OCR_API_KEY="your_api_key_here"

或通过位于 ~/.openclaw/openclaw.json 的全局 Openclaw Skills 配置文件进行配置：

{
  "skills": {
    "deepseek-ocr": {
      "apiKey": "YOUR_KEY_HERE"
    }
  }
}

DeepSeek OCR 数据架构与分类体系

该技能通过将二进制图像文件转换为基于文本的格式来管理数据。下表描述了输入和输出参数：

参数	描述	示例
image_path	本地文件路径	/path/to/screenshot.png
output_format	期望的文本结构	markdown, text, json

Openclaw Skills 内部的元数据确保目标 API 端点（默认为 ModelVerse）正确，并且通过主环境变量安全地处理身份验证。

name: deepseek-ocr
description: OCR text recognition using DeepSeek-OCR model. Use when user asks for OCR, text recognition, image text extraction, screenshot recognition, or converting images to text/markdown.
metadata:
  {
    "openclaw":
      {
        "emoji": "??",
        "requires": { "bins": ["curl", "jq", "base64"], "env": ["DEEPSEEK_OCR_API_KEY"] },
        "primaryEnv": "DEEPSEEK_OCR_API_KEY",
      },
  }

DeepSeek OCR

Recognize text in images using the DeepSeek-OCR model.

Quick start

{baseDir}/scripts/ocr.sh /path/to/image.jpg

Usage

{baseDir}/scripts/ocr.sh  [output_format]

Parameters:

: Local image file (jpg, png, webp, gif, bmp)
[output_format]: Optional, defaults to markdown. Can be text, json, etc.

Examples

# Convert to markdown (default)
{baseDir}/scripts/ocr.sh /path/to/image.jpg

# Convert to plain text
{baseDir}/scripts/ocr.sh /path/to/image.png text

# Extract table as JSON
{baseDir}/scripts/ocr.sh /path/to/table.jpg "extract table as json"

Remote URL images

The model only supports base64-encoded images. For remote URLs, download first:

curl -s -o /tmp/image.jpg "https://example.com/image.jpg"
{baseDir}/scripts/ocr.sh /tmp/image.jpg

API key

Set DEEPSEEK_OCR_API_KEY, or configure in ~/.openclaw/openclaw.json:

{
  skills: {
    "deepseek-ocr": {
      apiKey: "YOUR_KEY_HERE",
    },
  },
}

Default API URL: https://api.modelverse.cn/v1/chat/completions Override with DEEPSEEK_OCR_API_URL if needed.

上一篇：spotplay：macOS 原生 Spotify 播放控制 - Openclaw Skills 下一篇：Web Navigator：自动化网页研究与浏览 - Openclaw Skills

最新数据

年龄变换：AI面部老化与年轻化 - Openclaw Skills 什么是年龄变换？年龄变换技

ClawStat：系统性能监控 - Openclaw Skills

播客：智能订阅与简报代理 - Openclaw Skills

mirroir：通过 macOS 控制并自动化 iPhone - Openclaw Skills

Virlo：AI 社交媒体情报与病毒式传播分析 - Openclaw Skills

会议纪要总结器：自动提取行动事项 - Openclaw Skills

Vibe Research：AI 引导的自主文献综述 - Openclaw Skills

系统健康检查：监控并验证您的代理环境 - Openclaw Skills

FOSMVVM 字段生成器：Swift 表单校验 - Openclaw Skills

Camino AI 查询技能：自然语言地点搜索 - Openclaw Skills

信号管道：自动化营销情报工具 - Openclaw Skills

03/30

技能收益追踪器：监控 Openclaw 技能并实现变现

03/30

AI 合规准备就绪度：评估与治理工具 - Openclaw Skills

03/30

FOSMVVM ServerRequest 测试生成器：自动化 API 测试 - Openclaw Skills

03/30

酒店搜索器：AI 赋能的住宿与位置情报 - Openclaw Skills

03/30

Dub 链接 API：程序化链接管理 - Openclaw Skills

03/30

IntercomSwap：P2P BTC 与 USDT 跨链兑换 - Openclaw Skills

03/30

spotplay：macOS 原生 Spotify 播放控制 - Openclaw Skills

03/30

DeepSeek OCR：AI驱动的图像文本识别 - Openclaw Skills

03/30

Web Navigator：自动化网页研究与浏览 - Openclaw Skills

03/30

AI精选

MCP 协议深度解析：构建 A

OpenClaw 真正的效率开

精选

Anthropic 的 Harness 启示：当 AI Agent 开始「长跑」，架构才是真正的天花板

精选

AI Agent 智能体 - Multi-Agent 架构入门

精选

RAG 不一定非得靠向量库：一套更偏工程落地的“结构化推理检索”方案

精选

一文搞懂深度学习中的池化！

精选

一文搞懂卷积神经网络经典架构-LeNet

精选

告别 Vibe Coding：用 SDD 让 AI 编程提效 50%，三工具实战对比

精选

Agent 语音交互如何更稳、更快？一次高并发消息链路优化实践

精选

# AI 终于能"干活"了——Function Calling 完全指南

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区