知识库采集器:网页与社交媒体存档 - Openclaw Skills
作者:互联网
2026-03-29
什么是 知识库采集器?
知识库采集器是一个强大的实用程序,旨在将零散的网页链接和视觉数据转化为结构化、可搜索的资源库。通过利用 Openclaw Skills 的集成,用户可以自动存档来自普通网站、X(原 T@witter)和微信公众号的内容。它通过确保内容优先保存,随后在迭代生命周期中进行标签化和摘要等丰富化步骤,从而优先保证数据的完整性。
该技能在处理复杂的抓取场景方面表现出色,例如通过远程 macOS 节点绕过微信反爬虫措施,以及使用 OCR 处理截图。它创建了一个标准化的目录结构,其中每个条目由 Markdown 内容和 JSON 元数据组成,所有条目均通过索引以便于通过 CLI 或基于 T@elegrimm 的 AI 智能体工作流进行快速检索。
下载入口:https://github.com/openclaw/skills/tree/main/skills/ryanhong666/knowledge-base-collector
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install knowledge-base-collector
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 knowledge-base-collector。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
知识库采集器 应用场景
- 存档技术文章或 X 线程,用于长期参考和 AI 辅助检索。
- 捕获代码片段或 UI 设计的截图,并通过 OCR 使其可搜索。
- 建立通常难以存档的微信公众号文章私有库。
- 使用 AI 智能体从积累的知识中生成每周摘要或主题报告。
- 在实时 T@elegrimm 问答环节中快速检索存储的信息。
- 识别:技能根据提供的 URL 或文件输入识别源类型(网页、X 或微信)。
- 提取:使用 r.jina.ai 进行干净的内容提取,或者针对微信等受限源回退到节点侧抓取。
- 处理:使用 Tesseract OCR 或多模态大模型处理截图,以提取文本和描述性元数据。
- 存储:内容保存为 content.md,元数据保存为按日期组织的文件夹结构中的 meta.json。
- 索引:更新全局 index.jsonl 文件,以促进 Openclaw Skills 生态系统中的快速搜索和多智能体访问。
知识库采集器 配置指南
安装必要的依赖项并配置存储路径。默认存储根目录设置为 /home/ubuntu/.openclaw/kb。
# 进入脚本目录
cd /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts
# 测试 URL 采集以验证安装
python3 ingest_url.py "https://example.com" --tags "#research" --note "Initial capture"
# 可选:安装 Tesseract 以支持本地 OCR
sudo apt-get install tesseract-ocr chi_sim
知识库采集器 数据架构与分类体系
该技能在分层文件系统中组织数据,以确保 Openclaw Skills 搜索功能的可移植性和高性能。
| 文件/文件夹 | 描述 |
|---|---|
kb/20_Inbox/urls/index.jsonl |
所有采集条目的全局索引文件。 |
kb/20_Inbox/urls/ |
每个采集链接或图像的唯一目录。 |
content.md |
Markdown 格式的提取文本内容。 |
meta.json |
包含源 URL、标签、时间戳和获取状态的元数据。 |
name: knowledge-base-collector
description: Collect and organize a personal knowledge base from URLs (web/X/WeChat) and screenshots. Use when the user says they want to save an URL, ingest a link, archive content to KB, tag/classify notes, store screenshots, or search their saved knowledge in T@elegrimm. Supports WeChat via a connected macOS node when cloud fetch is blocked.
Summary
- Ingest: web URLs, X/T@witter links, WeChat Official Account links (mp.weixin.qq.com), and screenshots
- Store: writes to a shared KB folder with per-item
content.md+meta.jsonand a globalindex.jsonl - Organize: tag-first classification with richer tags (e.g.
#agent,#coding-agent,#claude-code,#mcp,#rag,#prompt-injection,#security,#pricing,#database) - WeChat: cloud fetch may be blocked; when a macOS node (e.g. Reed-Mac) is online, prefer node-side fetch to improve success rate; otherwise create a placeholder entry
- Search: designed to support T@elegrimm Q&A / search flows on top of the index and content
把用户发来的链接/截图沉淀到共享知识库(KB),并做标签化整理。
默认 KB 位置
- KB Root(可改):
/home/ubuntu/.openclaw/kb - 索引:
kb/20_Inbox/urls/index.jsonl - 每条内容目录:
kb/20_Inbox/urls// - /content.md + meta.json
目标:先入库不丢,再迭代“摘要/标签/检索”。
你要做的事(按输入类型)
1) 普通网页 / X(T@witter) / 公众号 URL 入库
运行脚本:
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_url.py "" --tags "#optional" --note "context"
行为:
- 自动识别来源(web/x/wech@t)
- 优先用
r.jina.ai抽取正文(无需登录) - 公众号遇到风控会写占位条目:
status=blocked_verification+ tag#needs-manual - 对同一 URL 做 key 去重(已存在则跳过)
WeChat 更高成功率(推荐路径)
当云端抓取命中“环境异常/验证”时:
- 如果有已连接的 macOS 节点(例如
Reed-Mac)且该节点能访问该文章,可用nodes.run在节点上执行抓取(requests+bs4),然后写入 KB。 - 注意:这条路径依赖节点在线与网络环境;无法承诺 100%。
2) 截图/图片入库(含 OCR 文本)
脚本:
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_image.py /path/to/image.jpg r
--text-file /path/to/ocr.txt r
--title "..." --tags "#ai #product" --note "..."
说明:
ingest_image.py负责“落盘+索引”。OCR 可用:- 本机 tesseract(若安装了
tesseract-ocr+chi_sim) - 或用多模态 LLM 抽取文字后写入
--text-file
- 本机 tesseract(若安装了
T@elegrimm 里直接问(检索)
推荐先用脚本(本机/服务器):
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --q "claude code" --limit 10
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --tags "#claude-code #coding-agent" --limit 20
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --source wech@t --since 7d --q "Elys"
公众号待补抓队列(占位条目)
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/wech@t_backlog.py --limit 30
周报/主题报告候选清单(给 LLM 写总结用)
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/weekly_digest.py --days 7 --limit 30
重要注意事项(安全/隐私)
- 截图/网页可能包含 token/验证码/密钥:入库前应做脱敏(替换为
REDACTED)。 - 公众号抓取受风控影响:建议允许“占位入库”,后续再补全。
相关推荐
