知识库采集器：网页与社交媒体存档

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

知识库采集器：网页与社交媒体存档 - Openclaw Skills

作者：互联网

2026-03-29

其他

什么是知识库采集器？

知识库采集器是一个强大的实用程序，旨在将零散的网页链接和视觉数据转化为结构化、可搜索的资源库。通过利用 Openclaw Skills 的集成，用户可以自动存档来自普通网站、X（原 T@witter）和微信公众号的内容。它通过确保内容优先保存，随后在迭代生命周期中进行标签化和摘要等丰富化步骤，从而优先保证数据的完整性。

该技能在处理复杂的抓取场景方面表现出色，例如通过远程 macOS 节点绕过微信反爬虫措施，以及使用 OCR 处理截图。它创建了一个标准化的目录结构，其中每个条目由 Markdown 内容和 JSON 元数据组成，所有条目均通过索引以便于通过 CLI 或基于 T@elegrimm 的 AI 智能体工作流进行快速检索。

下载入口:https://github.com/openclaw/skills/tree/main/skills/ryanhong666/knowledge-base-collector

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install knowledge-base-collector

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级：工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 knowledge-base-collector。如果尚未安装 Clawhub，请先安装（npm i -g clawhub）。

知识库采集器应用场景

存档技术文章或 X 线程，用于长期参考和 AI 辅助检索。
捕获代码片段或 UI 设计的截图，并通过 OCR 使其可搜索。
建立通常难以存档的微信公众号文章私有库。
使用 AI 智能体从积累的知识中生成每周摘要或主题报告。
在实时 T@elegrimm 问答环节中快速检索存储的信息。

知识库采集器工作原理

识别：技能根据提供的 URL 或文件输入识别源类型（网页、X 或微信）。
提取：使用 r.jina.ai 进行干净的内容提取，或者针对微信等受限源回退到节点侧抓取。
处理：使用 Tesseract OCR 或多模态大模型处理截图，以提取文本和描述性元数据。
存储：内容保存为 content.md，元数据保存为按日期组织的文件夹结构中的 meta.json。
索引：更新全局 index.jsonl 文件，以促进 Openclaw Skills 生态系统中的快速搜索和多智能体访问。

知识库采集器配置指南

安装必要的依赖项并配置存储路径。默认存储根目录设置为 /home/ubuntu/.openclaw/kb。

# 进入脚本目录
cd /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts

# 测试 URL 采集以验证安装
python3 ingest_url.py "https://example.com" --tags "#research" --note "Initial capture"

# 可选：安装 Tesseract 以支持本地 OCR
sudo apt-get install tesseract-ocr chi_sim

知识库采集器数据架构与分类体系

该技能在分层文件系统中组织数据，以确保 Openclaw Skills 搜索功能的可移植性和高性能。

文件/文件夹	描述
`kb/20_Inbox/urls/index.jsonl`	所有采集条目的全局索引文件。
`kb/20_Inbox/urls///`	每个采集链接或图像的唯一目录。
`content.md`	Markdown 格式的提取文本内容。
`meta.json`	包含源 URL、标签、时间戳和获取状态的元数据。

name: knowledge-base-collector
description: Collect and organize a personal knowledge base from URLs (web/X/WeChat) and screenshots. Use when the user says they want to save an URL, ingest a link, archive content to KB, tag/classify notes, store screenshots, or search their saved knowledge in T@elegrimm. Supports WeChat via a connected macOS node when cloud fetch is blocked.

Summary

Ingest: web URLs, X/T@witter links, WeChat Official Account links (mp.weixin.qq.com), and screenshots
Store: writes to a shared KB folder with per-item content.md + meta.json and a global index.jsonl
Organize: tag-first classification with richer tags (e.g. #agent, #coding-agent, #claude-code, #mcp, #rag, #prompt-injection, #security, #pricing, #database)
WeChat: cloud fetch may be blocked; when a macOS node (e.g. Reed-Mac) is online, prefer node-side fetch to improve success rate; otherwise create a placeholder entry
Search: designed to support T@elegrimm Q&A / search flows on top of the index and content

把用户发来的链接/截图沉淀到共享知识库（KB），并做标签化整理。

默认 KB 位置

KB Root（可改）：/home/ubuntu/.openclaw/kb
索引：kb/20_Inbox/urls/index.jsonl
每条内容目录：kb/20_Inbox/urls///content.md + meta.json

目标：先入库不丢，再迭代“摘要/标签/检索”。

你要做的事（按输入类型）

1) 普通网页 / X(T@witter) / 公众号 URL 入库

运行脚本：

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_url.py "" --tags "#optional" --note "context"

行为：

自动识别来源（web/x/wech@t）
优先用 r.jina.ai 抽取正文（无需登录）
公众号遇到风控会写占位条目：status=blocked_verification + tag #needs-manual
对同一 URL 做 key 去重（已存在则跳过）

WeChat 更高成功率（推荐路径）

当云端抓取命中“环境异常/验证”时：

如果有已连接的 macOS 节点（例如 Reed-Mac）且该节点能访问该文章，可用 nodes.run 在节点上执行抓取（requests+bs4），然后写入 KB。
注意：这条路径依赖节点在线与网络环境；无法承诺 100%。

2) 截图/图片入库（含 OCR 文本）

脚本：

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_image.py /path/to/image.jpg r
  --text-file /path/to/ocr.txt r
  --title "..." --tags "#ai #product" --note "..."

说明：

ingest_image.py 负责“落盘+索引”。OCR 可用：
- 本机 tesseract（若安装了 tesseract-ocr + chi_sim）
- 或用多模态 LLM 抽取文字后写入 --text-file

T@elegrimm 里直接问（检索）

推荐先用脚本（本机/服务器）：

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --q "claude code" --limit 10
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --tags "#claude-code #coding-agent" --limit 20
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --source wech@t --since 7d --q "Elys"

公众号待补抓队列（占位条目）

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/wech@t_backlog.py --limit 30

周报/主题报告候选清单（给 LLM 写总结用）

python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/weekly_digest.py --days 7 --limit 30

重要注意事项（安全/隐私）

截图/网页可能包含 token/验证码/密钥：入库前应做脱敏（替换为 REDACTED）。
公众号抓取受风控影响：建议允许“占位入库”，后续再补全。

上一篇：YouTube Shorts 自动化：AI 视频流水线 - Openclaw Skills 下一篇：Upwork 自由职业优化与提案助手 - Openclaw Skills