Docx 转 Markdown 转换器:自动化文档迁移 - Openclaw Skills
作者:互联网
2026-04-05
什么是 docx-to-md?
docx-to-md 工具是一个精简的解决方案,用于将旧版 Microsoft Word 文档转换为整洁、适用于 Web 的 Markdown。作为 Openclaw Skills 库的核心组件,它允许开发人员和内容创作者在不丢失关键结构或视觉资产的情况下自动执行文档迁移。
该技能可以处理标题、列表和表格的转换,确保生成的 Markdown 与现代文本编辑器和静态网站生成器兼容。通过自动提取嵌入的图像并在文本中提供相对链接,它显著减少了通常与文档格式迁移相关的各种手动开销。这使其成为使用 Openclaw Skills 在各种文档平台之间保持一致性的必备工具。
下载入口:https://github.com/openclaw/skills/tree/main/skills/ooliuhao/docx-to-md
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install docx-to-md
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 docx-to-md。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
docx-to-md 应用场景
- 将旧的企业文档从 Microsoft Word 迁移到 GitHub 或 GitLab 仓库。
- 批量处理用于技术博客和 Jekyll 或 Hugo 等静态网站生成器的 Word 草案。
- 从 Word 文件中提取高质量图像,用于 Web 开发和内容管理项目。
- 在 Openclaw Skills 工作流程中自动化需要文档格式标准化的内容管道。
- 该技能接收 .docx 文件路径作为处理的主要输入。
- 它利用 python-docx 库解析 Word 文档的内部 XML 结构。
- 它将特定的 Word 样式(如标题 1 到标题 4)映射到其标准的 Markdown 等效项。
- 所有嵌入的图像都从文档中提取并作为独立文件(PNG、JPG 或 GIF)保存在指定的输出文件夹中。
- 它生成一个最终的 Markdown 文件,其中保留了文本格式,并通相对路径正确引用了提取的图像。
docx-to-md 配置指南
确保已安装 Python 3.7 或更高版本。在运行该技能之前,您需要安装主要依赖项:
pip install python-docx
然后您可以通过命令行运行转换脚本:
python scripts/docx_to_md.py "your_document.docx"
docx-to-md 数据架构与分类体系
该技能将其输出组织到结构化目录中,以确保资产完整性。
| 文件类型 | 描述 | 格式 |
|---|---|---|
| 源文件 | 输入的 Microsoft Word 文件 | .docx |
| 输出文件 | 转换后的 Markdown 文档 | .md |
| 资产 | 提取的文档图像 | image_*.png/jpg/gif |
格式映射表:
- 标题 1 到 4 -> # 到 ####
- 无序列表 -> - 列表项
- 有序列表 -> 1. 列表项
- 表格 -> Markdown 管道表格
- 图像 -> Markdown 图像语法
name: docx-to-md
description: 将Word文档(.docx)转换为Markdown格式并提取图片。使用此技能当用户需要:(1)将Word文档转换为Markdown格式,(2)从Word文档中提取图片,(3)同时完成文档格式转换和图片提取任务。
docx-to-md
将Word文档(.docx)转换为Markdown格式,并提取文档中的图片到指定目录。
使用方法
运行脚本进行转换:
import sys
sys.path.insert(0, '/scripts')
from docx_to_md import docx_to_md
docx_to_md('输入文件.docx', '输出目录')
或在命令行运行(需手动处理参数转义):
python /scripts/docx_to_md.py "文件.docx"
参数
input_file: Word文档路径(.docx)output_dir: 输出目录(可选,默认创建同名_output文件夹)
输出
*.md: 转换后的Markdown文件image_*.png/jpg/gif: 提取的图片文件
转换规则
| Word格式 | Markdown |
|---|---|
| 标题1 | # 标题 |
| 标题2 | ## 标题 |
| 标题3 | ### 标题 |
| 标题4 | #### 标题 |
| 无序列表 | - 内容 |
| 有序列表 | 1. 内容 |
| 表格 | Markdown表格 |
| 图片 |
依赖
- Python 3.7+
- python-docx
pip install python-docx
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
EdgeHDF5 Memory:持久化 HDF5 认知存储 - Openclaw Skills
Agentic Compass: 客观的 AI 自我反思工具 - Openclaw Skills
WED:AI 供应链安全研究演示 - Openclaw Skills
问候技能:个性化 AI 智能体欢迎词 - Openclaw Skills
Obsidian 知识库技能:AI 驱动的库管理 - Openclaw Skills
Playwright CLI:面向编程智能体的浏览器自动化 - Openclaw Skills
记忆技能:为 Openclaw Skills 提供持久化上下文
Didit 年龄估算:AI 人脸年龄验证 - Openclaw Skills
OpenClaw 浏览器自动化:CDP 与截图 - Openclaw Skills
Agora:多智能体并行推理委员会 - Openclaw Skills
AI精选
