WeChat Collect:自动化文章归档与简报 - Openclaw Skills

作者:互联网

2026-04-13

AI教程

什么是 WeChat Collect?

WeChat Collect 是一个高性能工具,旨在简化微信公众号公开内容的获取。作为 Openclaw Skills 库的核心组件,它弥补了原始网页内容与结构化 AI 就绪数据之间的差距。通过针对公开的 mp.weixin.qq.com URL,该技能自动提取关键元数据和正文文本,确保开发人员和内容创作者无需手动复制粘贴即可启动生产工作流。

该技能对于使用阶段性内容生产流水线的团队特别有效。它不仅抓取文本,还将源材料转换为 Stage-1 兼容的简报。这种结构化格式经过专门调整,可供二次代理(如混合案例写作器)使用,从而促进在 Openclaw Skills 框架内从原始研究到精美输出的无缝衔接。

下载入口:https://github.com/openclaw/skills/tree/main/skills/abigale-cyber/wechat-collect

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install wechat-collect

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 wechat-collect。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

WeChat Collect 应用场景

  • 归档公开微信文章,以便长期溯源和参考。
  • 为内容营销和竞品分析自动收集研究资料。
  • 初始化 AI 辅助写作的 Stage 2 收集到创作流水线。
  • 将零碎的社交媒体文章转换为标准化的 Markdown 简报。
WeChat Collect 工作原理
  1. URL 检测:该技能解析提供的输入文本文件,以识别并提取第一个有效的微信文章 URL。
  2. HTML 抓取:它对公开 URL 执行请求,以检索文章的完整原始 HTML 源码。
  3. 内容提取:引擎提取关键数据点,包括文章标题、作者姓名、发布日期和正文段落。
  4. 简报合成:生成 Stage-1 兼容的简报,将提取的数据整理成易于 AI 处理的格式。
  5. 数据归档:系统将结构化简报和原始 HTML 保存到特定目录,以便进行版本控制和审计追踪。

WeChat Collect 配置指南

要在您的环境中部署此技能,请确保您的虚拟环境处于激活状态,并使用 Openclaw Skills 提供的以下 CLI 命令结构:

# 使用输入文件运行 WeChat Collect 技能的示例
.venv/bin/python -m skill_runtime.cli run-skill wechat-collect --input content-production/inbox/20260403-wechat-collect-url.txt

请确保您的输入文本文件包含至少一个可公开访问的 mp.weixin.qq.com URL。

WeChat Collect 数据架构与分类体系

该技能对其输出保持严格的组织,以确保在 Openclaw Skills 生态系统中的兼容性:

文件类型 输出位置 描述
结构化简报 content-production/inbox/--gzh-brief.md 包含提取的元数据和核心内容的 Markdown 文件。
原始归档 content-production/inbox/raw/wechat/-.html 用于溯源和未来重新解析的原始源 HTML。

文件使用 - 惯例命名,以防止冲突并保持收件箱中的时间顺序。

name: wechat-collect
description: Fetch a public WeChat article URL, archive the raw HTML, and convert the article into a stage-1 compatible brief in `content-production/inbox/`. Use when Codex needs to collect公众号文章素材 or start the Stage 2 collect-to-create pipeline from a public `mp.weixin.qq.com` URL.

WeChat Collect

Collect a public WeChat article and transform it into a brief that can be passed directly to case-writer-hybrid.

Quick Start

Run the default command:

.venv/bin/python -m skill_runtime.cli run-skill wechat-collect --input content-production/inbox/20260403-wechat-collect-url.txt

Prepare Input

Pass a text file containing at least one URL. The first detected URL is used.

Example input file:

content-production/inbox/20260403-wechat-collect-url.txt

Follow Collection Workflow

  1. Fetch the public article HTML from the first detected URL.
  2. Extract title, author, date, and candidate正文段落 from the page.
  3. Build a stage-1 compatible brief that downstream writing steps can reuse.
  4. Archive the raw HTML for traceability and later extraction tuning.

Write Output

Write the brief to:

content-production/inbox/--gzh-brief.md

Write the raw archive to:

content-production/inbox/raw/wechat/-.html

Respect Constraints

  • Only works for publicly reachable article URLs
  • Deleted articles or anti-crawl variants may produce reduced-quality extraction or fail explicitly
  • Current extraction is usable for pipeline intake, but still needs quality tuning for cleaner argument mining
  • Shared runtime: skills/wechat-collect/runtime.py
  • Pipeline entry: skill_runtime/engine.py
  • Stage 2 workflow: workflows/stage2-wechat-pipeline.json
  • Planning reference: docs/content-skills-implementation-plan.md