Terminal OCR：CLI 截图文本提取与分析 - Openclaw Skills-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

Terminal OCR：CLI 截图文本提取与分析 - Openclaw Skills

作者：互联网

2026-03-26

AI教程

什么是 Terminal OCR？

Terminal OCR 是一款专门设计的工具，旨在弥合视觉终端输出与可操作数据之间的鸿沟。通过利用先进的图像预处理和多引擎 OCR 能力，该技能允许 AI 智能体以高精度解释 CLI 环境。它是 Openclaw Skills 生态系统中的关键组件，使开发人员能够直接从截图中处理复杂的日志和命令输出，无需手动输入。

该技能通过提供针对终端的特定优化，超越了简单的字符识别。它可以重构表格结构、检测字符编码，并对命令和路径进行语法高亮。无论您是在排除远程服务器日志故障，还是在解释复杂的 CLI 输出，Terminal OCR 都能为专业开发工作流提供所需的技术准确性。

下载入口:https://github.com/openclaw/skills/tree/main/skills/zhaog100/terminal-ocr

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install terminal-ocr

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级：工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 terminal-ocr。如果尚未安装 Clawhub，请先安装（npm i -g clawhub）。

Terminal OCR 应用场景

从截图中分析系统日志，以诊断服务器错误并识别特定的错误代码。
解析命令行工具输出，以提供逐步说明或文档。
从捕获的终端视图中提取配置设置，以便进行快速环境迁移。
在密集的终端数据截图中识别时间戳和日志级别。

Terminal OCR 工作原理

用户向智能体提供终端或命令行界面的截图。
该技能执行图像预处理，包括针对长截图的自动分块和增强可读性的对比度提升。
系统选择最佳 OCR 引擎——本地处理使用 Tesseract，复杂视觉分析使用 AI 视觉模型。
提取的文本经过后处理，以恢复表格结构并识别路径和命令等 CLI 语法。
最终分析的数据连同可操作的见解或错误诊断一起返回给用户。

Terminal OCR 配置指南

要将其集成到您的 Openclaw Skills 环境中，请遵循以下步骤：

# 导航到技能目录
cd ~/.openclaw/workspace/skills/terminal-ocr

# 执行安装脚本
bash install.sh

确保您已安装 Python 3.8+、OpenCV 和 Pillow。为了获得最佳本地性能，强烈建议安装 Tesseract OCR 及其语言包。

Terminal OCR 数据架构与分类体系

该技能在结构化目录中组织其操作和输出，以确保 Openclaw Skills 的一致性。

文件/文件夹	用途
`/config/ocr-config.json`	OCR 引擎和图像处理参数的配置。
`/scripts/terminal-ocr.sh`	处理终端截图的主要入口点。
`/scripts/preprocess-image.py`	处理二值化和对比度增强的 Python 脚本。
`/data/processed/`	处理后的图像分块和文本结果的内部存储。
`package.json`	定义技能的技术元数据和依赖项。

name: terminal-ocr
description: 终端截图OCR识别技能。专门处理终端/命令行界面的截图，提取文本内容并进行分析。

终端OCR技能

专门针对终端/命令行界面截图的OCR识别和文本提取技能。

?? 核心特性

? 智能图像预处理

? 自动分块：超长截图自动分割为可处理的块
? 对比度增强：提升终端文字的可读性
? 二值化处理：优化黑白对比，减少噪声
? 字体识别：针对等宽字体优化识别

? 多引擎支持

? Tesseract OCR：本地OCR引擎（需要安装）
? AI视觉分析：无OCR环境下的替代方案
? 混合模式：结合两种方法提高准确率

? 终端专用优化

? 命令行语法高亮：识别命令、路径、错误信息
? 日志格式解析：自动识别时间戳、日志级别
? 表格结构重建：还原终端表格格式
? 编码检测：自动检测UTF-8、GBK等编码

?? 使用方式

1. 安装技能

# 进入技能目录
cd ~/.openclaw/workspace/skills/terminal-ocr

# 运行安装脚本
bash install.sh

2. 基础OCR识别

# 分析终端截图
./scripts/terminal-ocr.sh /path/to/screenshot.png

# 输出文本内容
./scripts/extract-text.sh /path/to/screenshot.png

3. 高级分析

# 命令行分析
./scripts/analyze-commands.sh /path/to/screenshot.png

# 日志分析  
./scripts/analyze-logs.sh /path/to/screenshot.png

# 错误诊断
./scripts/diagnose-errors.sh /path/to/screenshot.png

??? 技术实现

文件结构

terminal-ocr/
├── SKILL.md
├── README.md
├── package.json
├── install.sh
├── config/
│   └── ocr-config.json
├── scripts/
│   ├── terminal-ocr.sh          # 主OCR脚本
│   ├── extract-text.sh         # 文本提取
│   ├── analyze-commands.sh     # 命令分析
│   ├── analyze-logs.sh         # 日志分析
│   ├── diagnose-errors.sh      # 错误诊断
│   ├── preprocess-image.py     # 图像预处理
│   └── fallback-ai-analysis.py # AI视觉分析备用
└── data/
    └── processed/

核心算法

图像预处理：分块 + 增强 + 二值化
OCR识别：Tesseract + 自定义词典
后处理：语法高亮 + 结构重建
备用方案：AI视觉分析（无OCR环境）

?? 使用场景

场景1：系统日志分析

用户：[发送系统日志截图]
AI：[调用terminal-ocr] → 提取日志内容 → 分析错误信息

场景2：命令行输出解析

用户：[发送命令行输出截图]  
AI：[调用terminal-ocr] → 识别命令和输出 → 提供解释

场景3：配置文件查看

用户：[发送配置文件截图]
AI：[调用terminal-ocr] → 提取配置内容 → 分析设置

?? 环境要求

必需依赖

Python 3.8+
OpenCV-Python
Pillow

可选依赖（推荐）

Tesseract OCR (tesseract-ocr)
中文语言包 (tesseract-ocr-chi-sim)

无依赖模式

纯AI视觉分析（准确率较低但无需安装）

?? 性能指标

指标	目标	实际
处理速度	< 10秒/图	待测试
准确率	> 85%	待测试
支持格式	PNG/JPG	?
最大尺寸	10000px	?

?? 未来规划

短期

完成基础OCR功能
实现图像预处理
添加AI视觉备用方案

中期

命令行语法分析
日志格式识别
错误诊断功能

长期

多语言支持
实时OCR
与OpenClaw深度集成

终端OCR技能 - 让终端截图变得可读 版本：0.1.0（开发中） 创建时间：2026-03-05

上一篇：共情技能：AI 智能体的共情链 - Openclaw Skills 下一篇：看漫画必备软件推荐-资源超全的漫画app

最新数据

看漫画必备软件推荐-资源超全的漫画app 本文推荐6款资源超全的漫画ap

影棚服务目录：自动定价与时长 - Openclaw Skills

演示精通：专业幻灯片设计与交付 - Openclaw Skills

YouTube 缩略图设计：AI 赋能的点击率（CTR）优化 - Openclaw Skills

地理 AI 技能：地图素养与空间分析 - Openclaw Skills

clawctl: 编排自主智能体集群 - Openclaw Skills

《粒粒的小人国》镜子使用攻略

Clawl 注册：AI 智能体发现与索引 - Openclaw 技能

Sui: 精通区块链交易与 Move 智能合约 - Openclaw Skills

自我反思技能：自动化 AI 学习与记忆 - Openclaw Skills

信号管道：自动化营销情报工具 - Openclaw Skills

03/30

技能收益追踪器：监控 Openclaw 技能并实现变现

03/30

AI 合规准备就绪度：评估与治理工具 - Openclaw Skills

03/30

FOSMVVM ServerRequest 测试生成器：自动化 API 测试 - Openclaw Skills

03/30

酒店搜索器：AI 赋能的住宿与位置情报 - Openclaw Skills

03/30

Dub 链接 API：程序化链接管理 - Openclaw Skills

03/30

IntercomSwap：P2P BTC 与 USDT 跨链兑换 - Openclaw Skills

03/30

spotplay：macOS 原生 Spotify 播放控制 - Openclaw Skills

03/30

DeepSeek OCR：AI驱动的图像文本识别 - Openclaw Skills

03/30

Web Navigator：自动化网页研究与浏览 - Openclaw Skills

03/30

AI精选

MCP 协议深度解析：构建 A

OpenClaw 真正的效率开

精选

Anthropic 的 Harness 启示：当 AI Agent 开始「长跑」，架构才是真正的天花板

精选

AI Agent 智能体 - Multi-Agent 架构入门

精选

RAG 不一定非得靠向量库：一套更偏工程落地的“结构化推理检索”方案

精选

一文搞懂深度学习中的池化！

精选

一文搞懂卷积神经网络经典架构-LeNet

精选

告别 Vibe Coding：用 SDD 让 AI 编程提效 50%，三工具实战对比

精选

Agent 语音交互如何更稳、更快？一次高并发消息链路优化实践

精选

# AI 终于能"干活"了——Function Calling 完全指南

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区