知识库采集器:网页与社交媒体存档 - Openclaw Skills

作者:互联网

2026-03-29

其他

什么是 知识库采集器?

知识库采集器是一个强大的实用程序,旨在将零散的网页链接和视觉数据转化为结构化、可搜索的资源库。通过利用 Openclaw Skills 的集成,用户可以自动存档来自普通网站、X(原 T@witter)和微信公众号的内容。它通过确保内容优先保存,随后在迭代生命周期中进行标签化和摘要等丰富化步骤,从而优先保证数据的完整性。

该技能在处理复杂的抓取场景方面表现出色,例如通过远程 macOS 节点绕过微信反爬虫措施,以及使用 OCR 处理截图。它创建了一个标准化的目录结构,其中每个条目由 Markdown 内容和 JSON 元数据组成,所有条目均通过索引以便于通过 CLI 或基于 T@elegrimm 的 AI 智能体工作流进行快速检索。

下载入口:https://github.com/openclaw/skills/tree/main/skills/ryanhong666/knowledge-base-collector

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install knowledge-base-collector

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 knowledge-base-collector。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

知识库采集器 应用场景

  • 存档技术文章或 X 线程,用于长期参考和 AI 辅助检索。
  • 捕获代码片段或 UI 设计的截图,并通过 OCR 使其可搜索。
  • 建立通常难以存档的微信公众号文章私有库。
  • 使用 AI 智能体从积累的知识中生成每周摘要或主题报告。
  • 在实时 T@elegrimm 问答环节中快速检索存储的信息。
知识库采集器 工作原理
  1. 识别:技能根据提供的 URL 或文件输入识别源类型(网页、X 或微信)。
  2. 提取:使用 r.jina.ai 进行干净的内容提取,或者针对微信等受限源回退到节点侧抓取。
  3. 处理:使用 Tesseract OCR 或多模态大模型处理截图,以提取文本和描述性元数据。
  4. 存储:内容保存为 content.md,元数据保存为按日期组织的文件夹结构中的 meta.json。
  5. 索引:更新全局 index.jsonl 文件,以促进 Openclaw Skills 生态系统中的快速搜索和多智能体访问。

知识库采集器 配置指南

安装必要的依赖项并配置存储路径。默认存储根目录设置为 /home/ubuntu/.openclaw/kb

# 进入脚本目录
cd /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts

# 测试 URL 采集以验证安装
python3 ingest_url.py "https://example.com" --tags "#research" --note "Initial capture"

# 可选:安装 Tesseract 以支持本地 OCR
sudo apt-get install tesseract-ocr chi_sim

知识库采集器 数据架构与分类体系

该技能在分层文件系统中组织数据,以确保 Openclaw Skills 搜索功能的可移植性和高性能。

文件/文件夹 描述
kb/20_Inbox/urls/index.jsonl 所有采集条目的全局索引文件。
kb/20_Inbox/urls/// 每个采集链接或图像的唯一目录。
content.md Markdown 格式的提取文本内容。
meta.json 包含源 URL、标签、时间戳和获取状态的元数据。
name: knowledge-base-collector
description: Collect and organize a personal knowledge base from URLs (web/X/WeChat) and screenshots. Use when the user says they want to save an URL, ingest a link, archive content to KB, tag/classify notes, store screenshots, or search their saved knowledge in T@elegrimm. Supports WeChat via a connected macOS node when cloud fetch is blocked.

Summary

  • Ingest: web URLs, X/T@witter links, WeChat Official Account links (mp.weixin.qq.com), and screenshots
  • Store: writes to a shared KB folder with per-item content.md + meta.json and a global index.jsonl
  • Organize: tag-first classification with richer tags (e.g. #agent, #coding-agent, #claude-code, #mcp, #rag, #prompt-injection, #security, #pricing, #database)
  • WeChat: cloud fetch may be blocked; when a macOS node (e.g. Reed-Mac) is online, prefer node-side fetch to improve success rate; otherwise create a placeholder entry
  • Search: designed to support T@elegrimm Q&A / search flows on top of the index and content

把用户发来的链接/截图沉淀到共享知识库(KB),并做标签化整理。

默认 KB 位置

  • KB Root(可改):/home/ubuntu/.openclaw/kb
  • 索引:kb/20_Inbox/urls/index.jsonl
  • 每条内容目录:kb/20_Inbox/urls///content.md + meta.json

目标:先入库不丢,再迭代“摘要/标签/检索”。

你要做的事(按输入类型)

1) 普通网页 / X(T@witter) / 公众号 URL 入库

运行脚本:

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_url.py "" --tags "#optional" --note "context"

行为:

  • 自动识别来源(web/x/wech@t)
  • 优先用 r.jina.ai 抽取正文(无需登录)
  • 公众号遇到风控会写占位条目:status=blocked_verification + tag #needs-manual
  • 对同一 URL 做 key 去重(已存在则跳过)

WeChat 更高成功率(推荐路径)

当云端抓取命中“环境异常/验证”时:

  • 如果有已连接的 macOS 节点(例如 Reed-Mac)且该节点能访问该文章,可用 nodes.run 在节点上执行抓取(requests+bs4),然后写入 KB。
  • 注意:这条路径依赖节点在线与网络环境;无法承诺 100%。

2) 截图/图片入库(含 OCR 文本)

脚本:

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_image.py /path/to/image.jpg r
  --text-file /path/to/ocr.txt r
  --title "..." --tags "#ai #product" --note "..."

说明:

  • ingest_image.py 负责“落盘+索引”。OCR 可用:
    • 本机 tesseract(若安装了 tesseract-ocr + chi_sim
    • 或用多模态 LLM 抽取文字后写入 --text-file

T@elegrimm 里直接问(检索)

推荐先用脚本(本机/服务器):

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --q "claude code" --limit 10
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --tags "#claude-code #coding-agent" --limit 20
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --source wech@t --since 7d --q "Elys"

公众号待补抓队列(占位条目)

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/wech@t_backlog.py --limit 30

周报/主题报告候选清单(给 LLM 写总结用)

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/weekly_digest.py --days 7 --limit 30

重要注意事项(安全/隐私)

  • 截图/网页可能包含 token/验证码/密钥:入库前应做脱敏(替换为 REDACTED)。
  • 公众号抓取受风控影响:建议允许“占位入库”,后续再补全。