doc-handler:自动化 Word、PDF 和 Excel 处理 - Openclaw Skills

作者:互联网

2026-03-30

Word

什么是 doc-handler?

doc-handler 技能是一款专门设计的工具,旨在弥合 AI 智能体与静态文档格式之间的差距。通过利用 python-docx、pdfplumber 和 openpyxl 等强大的 Python 库,该技能可以实现与 DOCX、PDF 和 XLSX 文件的无缝交互。对于使用 Openclaw Skills 且需要无需人工干预即可从报告中提取数据、更新模板或解析电子表格的开发人员来说,这是一个必不可少的组件。

doc-handler 专为速度和可靠性而构建,为文档操作提供了统一的接口。无论您是在构建自动化研究助手还是数据录入机器人,这些 Openclaw Skills 都能确保您的智能体能够理解并修改专业环境中使用的最常见文档类型。

下载入口:https://github.com/openclaw/skills/tree/main/skills/xaiohuangningde/doc-handler

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install doc-handler

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 doc-handler。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

doc-handler 应用场景

  • 从多页 PDF 文档中提取文本以进行自动化分析。
  • 修改 Word 文档内容以生成自定义报告或合同。
  • 读取 Excel 电子表格以将数据馈送到数据库或其他应用程序。
  • 自动解析以 PDF 格式存储的发票和收据。
  • 在 Openclaw Skills 工作流中创建文档处理流水线。
doc-handler 工作原理
  1. 用户或智能体发起命令,指定目标文件和所需操作(读取或写入)。
  2. doc-handler 模块识别文件类型并选择合适的引擎,例如用于 PDF 的 pdfplumber 或用于 Excel 的 openpyxl。
  3. 该技能解析文档的内部结构以定位文本段落、表格单元格或元数据。
  4. 对于读取操作,提取内容并将其作为干净的字符串或结构化数据返回。
  5. 对于写入操作,该技能更新文档结构并将更改保存回文件系统。
  6. 处理后的数据随后可供智能体任务序列中的其他 Openclaw Skills 使用。

doc-handler 配置指南

要利用 doc-handler,您必须安装必要的 Python 依赖项。这些 Openclaw Skills 依赖特定的库来处理各种文件编码。

# 安装所需的文档处理库
pip install python-docx pdfplumber openpyxl pandas

安装后,您可以通过对示例文档运行读取命令来验证设置:

python3 -m doc_handler read docx sample.docx

doc-handler 数据架构与分类体系

doc-handler 技能根据文件扩展名和特定的库集成来组织其操作。下表概述了这些 Openclaw Skills 中的数据处理结构:

文档类型 扩展名 处理引擎
Word 文档 .docx python-docx
PDF 文件 .pdf pdfplumber
Excel 表格 .xlsx openpyxl / pandas

所有提取的文本通常以 UTF-8 编码的字符串格式返回,以确保与 LLM 上下文窗口的兼容性。

name: doc-handler
description: 读取和编辑 Word、PDF、Excel 文档。使用 python-docx、pdfplumber、openpyxl
read_when:
  - 读取文档
  - 编辑文档
  - 解析 PDF
  - 处理 Excel

doc-handler - 文档处理工具

功能

功能 命令
读取 Word python3 -m doc_handler read docx 文件
读取 PDF python3 -m doc_handler read pdf 文件
读取 Excel python3 -m doc_handler read xlsx 文件
写入 Word python3 -m doc_handler write docx 文件 "内容"

使用示例

# 读取 Word 文档
python3 -c "from docx import Document; d = Document('file.docx'); print('n'.join([p.text for p in d.paragraphs]))"

# 读取 PDF
python3 -c "import pdfplumber; with pdfplumber.open('file.pdf') as pdf: print(pdf.pages[0].extract_text())"

# 读取 Excel
python3 -c "import pandas; df = pandas.read_excel('file.xlsx'); print(df)"

依赖

  • python-docx
  • pdfplumber
  • openpyxl
  • pandas