DocuClaw: 本地 AI 文档智能与归档 - Openclaw 技能

作者:互联网

2026-03-30

AI教程

什么是 DocuClaw?

DocuClaw 是一款强大的、本地优先的文档智能系统,旨在为敏感信息提供主权数据基础设施。通过利用多模态大语言模型(LLMs),它将物理扫描件、照片和数字文件转换为结构化的、人类可读的 Markdown 文件。作为 Openclaw 技能中的杰出代表,它通过确保您的私有数据永远不会离开硬件来优先保护隐私,同时仍提供现代数据处理所需的高级智能。

该系统专为需要符合 GoBD 或 GDPR 合规归档且不依赖云端处理的用户而构建。无论您是在管理个人财务还是公司合同,DocuClaw 都会将所有文档类型标准化为通用架构,使您的历史记录易于搜索且可进行版本控制。

下载入口:https://github.com/openclaw/skills/tree/main/skills/astonysh/docuclaw

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install docuclaw

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 docuclaw。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

DocuClaw 应用场景

  • 通过从收据中提取总额、税额和日期来自动进行费用管理,以便报税。
  • 通过识别法律文件中的到期日期和续约条款来监控合同生命周期。
  • 为所有物理和数字邮件建立一个本地优先的主权档案,以便长期存储。
  • 在不暴露于云端的情况下,对私有文档历史记录进行统一查询和 RAG(检索增强生成)。
DocuClaw 工作原理
  1. 通过提供 PDF 发票、电子邮件附件或实物收据的照片来摄取文件。
  2. 执行处理命令以触发 AI 驱动的提取引擎。
  3. 使用本地多模态模型分析文档,以识别关键元数据字段和内容。
  4. 使用结构化文件层级(年/月/文件名.md)将结果归档到本地库中。
  5. 将结构化的 YAML 元数据同步到外部会计工具或日历,以执行自动化操作。

DocuClaw 配置指南

要开始使用此技能,请确保您已准备好核心环境并运行以下命令:

# 通过 CLI 安装 DocuClaw 技能
openclaw install docuclaw

# 初始化您的本地文档库
docuclaw init ./my-sovereign-archive

# 使用本地 AI 引擎处理您的第一个文档
docuclaw process ./path/to/document.pdf

DocuClaw 数据架构与分类体系

DocuClaw 将数据组织成简洁、可预测的结构,旨在实现持久性以及与其他 Openclaw 技能的互操作性。

组件 格式 描述
存储路径 YYYY/MM/filename.md 按时间顺序组织文件。
元数据 YAML Frontmatter 包含提取的字段,如供应商、日期、金额和税费。
正文 Markdown 包括全文提取和 AI 生成的摘要。
分类 标签 用于过滤的可自定义标签(例如 #invoice, #contract)。
name: DocuClaw
description: Sovereign document intelligence & archival system. Extracts structured data from invoices, receipts, and contracts 100% locally using AI.

DocuClaw Skill

DocuClaw provides a sovereign data infrastructure for processing and archiving documents. It uses multimodal LLMs to extract structured information from scans, photos, and emails, storing everything in human-readable, version-controllable Markdown files.

Use Cases

  • Expense Management: Extract totals, taxes, and dates from receipts for tax filing.
  • Contract Analysis: Monitor expiration dates and renewal clauses in legal documents.
  • Sovereign Archival: Maintain a local-first, GDPR/GoBD compliant archive of all physical and digital mail.
  • Unified Querying: Ask questions about your document history without cloud exposure.

Key Features

  • 100% Local: Zero cloud dependency. Your private data never leaves your hardware.
  • Plug-and-Play Parsers: Extensible architecture for country-specific document formats.
  • AI-Powered: Supports Ollama, OpenAI Vision, or any multimodal model for intelligent extraction.
  • Markdown Schema: Normalizes all documents into a universal schema with YAML metadata.

Workflow Example

  1. Input: A PDF invoice or a photo of a receipt.
  2. Process: Run docuclaw process to trigger AI extraction.
  3. Archive: Document is saved to your local vault as YYYY/MM/filename.md.
  4. Action: The extracted data is synced to your calendar or accounting tool.

Integration

DocuClaw is designed to work seamlessly with the OpenClaw ecosystem, allowing AI agents to perform RAG (Retrieval-Augmented Generation) over your local document archive.