DeepSeek OCR:AI驱动的图像文本识别 - Openclaw Skills

作者:互联网

2026-03-30

AI教程

什么是 DeepSeek OCR?

DeepSeek OCR 是 Openclaw Skills 的一个强大集成,它利用 DeepSeek-OCR 模型提供高保真文本识别。它允许用户处理本地图像、屏幕截图或下载的远程文件,并将其转换为结构化的 Markdown、纯文本或 JSON。

该技能对于需要数字化纸质文档、从 UI 原型中提取数据或在 AI 辅助工作流中分析复杂视觉信息的开发人员和研究人员特别有用。通过利用 Openclaw Skills 框架,它简化了本地文件系统与强大的视觉语言模型之间的交互。

下载入口:https://github.com/openclaw/skills/tree/main/skills/qianjunye/ucloud-deepseek-ocr

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install ucloud-deepseek-ocr

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 ucloud-deepseek-ocr。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

DeepSeek OCR 应用场景

  • 从教程截图中提取代码片段以实现快速应用。
  • 将扫描的文档图像转换为可编辑的 Markdown 文件以用于文档编写。
  • 将图像素材中的数据表解析为结构化的 JSON 以进行数据分析。
  • 在 Openclaw Skills 环境中自动将手写笔记转录为数字文本。
DeepSeek OCR 工作原理
  1. 用户提供支持格式(如 JPG、PNG 或 WebP)的本地图像文件路径。
  2. 该技能利用系统二进制文件将图像编码为 Base64 字符串以满足 API 兼容性。
  3. 编码后的数据连同指定的格式说明(如 Markdown 或 JSON)一起发送到 DeepSeek API 端点。
  4. AI 模型处理视觉数据并返回识别出的文本。
  5. 该技能将结果直接输出到终端或调用程序,供进一步处理使用。

DeepSeek OCR 配置指南

要开始使用 Openclaw Skills 库中的此组件,请确保您具备必要的依赖项和配置:

  1. 安装系统要求:
# 确保 PATH 中包含 curl, jq, 和 base64
  1. 将您的 API Key 设置为环境变量:
export DEEPSEEK_OCR_API_KEY="your_api_key_here"
  1. 或通过位于 ~/.openclaw/openclaw.json 的全局 Openclaw Skills 配置文件进行配置:
{
  "skills": {
    "deepseek-ocr": {
      "apiKey": "YOUR_KEY_HERE"
    }
  }
}

DeepSeek OCR 数据架构与分类体系

该技能通过将二进制图像文件转换为基于文本的格式来管理数据。下表描述了输入和输出参数:

参数 描述 示例
image_path 本地文件路径 /path/to/screenshot.png
output_format 期望的文本结构 markdown, text, json

Openclaw Skills 内部的元数据确保目标 API 端点(默认为 ModelVerse)正确,并且通过主环境变量安全地处理身份验证。

name: deepseek-ocr
description: OCR text recognition using DeepSeek-OCR model. Use when user asks for OCR, text recognition, image text extraction, screenshot recognition, or converting images to text/markdown.
metadata:
  {
    "openclaw":
      {
        "emoji": "??",
        "requires": { "bins": ["curl", "jq", "base64"], "env": ["DEEPSEEK_OCR_API_KEY"] },
        "primaryEnv": "DEEPSEEK_OCR_API_KEY",
      },
  }

DeepSeek OCR

Recognize text in images using the DeepSeek-OCR model.

Quick start

{baseDir}/scripts/ocr.sh /path/to/image.jpg

Usage

{baseDir}/scripts/ocr.sh  [output_format]

Parameters:

  • : Local image file (jpg, png, webp, gif, bmp)
  • [output_format]: Optional, defaults to markdown. Can be text, json, etc.

Examples

# Convert to markdown (default)
{baseDir}/scripts/ocr.sh /path/to/image.jpg

# Convert to plain text
{baseDir}/scripts/ocr.sh /path/to/image.png text

# Extract table as JSON
{baseDir}/scripts/ocr.sh /path/to/table.jpg "extract table as json"

Remote URL images

The model only supports base64-encoded images. For remote URLs, download first:

curl -s -o /tmp/image.jpg "https://example.com/image.jpg"
{baseDir}/scripts/ocr.sh /tmp/image.jpg

API key

Set DEEPSEEK_OCR_API_KEY, or configure in ~/.openclaw/openclaw.json:

{
  skills: {
    "deepseek-ocr": {
      apiKey: "YOUR_KEY_HERE",
    },
  },
}

Default API URL: https://api.modelverse.cn/v1/chat/completions Override with DEEPSEEK_OCR_API_URL if needed.