Web Markdown 导航器:高保真网页转 Markdown 提取 - Openclaw Skills

作者:互联网

2026-04-14

AI教程

什么是 Web Markdown 导航器?

Web Markdown 导航器是 Openclaw Skills 生态系统中的专用工具,旨在解决网页数据噪声问题。该工具不向 AI 智能体传递原始、未优化的 HTML,而是使用复杂的多层提取过程。它利用 Mozilla Readability 和 Turndown 将网页提炼为其核心内容,确保生成的 Markdown 聚焦、节省 Token 且易于语言模型处理。

该工具对于构建研究智能体或自动化内容流水线的开发人员特别有效。通过优先处理纯净文本而非原始结构,它提高了摘要和数据提取任务的准确性。作为 Openclaw Skills 集合的一部分,它提供了一个可靠的接口,可将任何公共 URL 转换为结构化文档。

下载入口:https://github.com/openclaw/skills/tree/main/skills/plgonzalezrx8/web-markdown-navigator

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install web-markdown-navigator

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 web-markdown-navigator。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

Web Markdown 导航器 应用场景

  • 为自动化摘要工作流提取纯净的文章内容。
  • 将文档页面转换为 Markdown 以用于 RAG(检索增强生成)数据集。
  • 在原始 HTML 噪声干扰 AI 推理的情况下自动执行研究任务。
  • 抓取博客文章或新闻网站进行数据分析,同时排除导航和广告。
Web Markdown 导航器 工作原理
  1. 该工具接受 URL 输入和可选参数(如 max-chars 和 timeout-ms)。
  2. 它执行即时 URL 安全检查,以防止访问本地主机或私有 IPv4 地址。
  3. 在第一层中,脚本尝试使用 Mozilla Readability 提取内容并通过 Turndown 进行转换。
  4. 如果初始提取结果为稀疏内容或样板代码(通常出现在单页应用中),该工具将触发第二层回退。
  5. 如果静态获取未能提供高质量的 Markdown,系统可以利用浏览器工具回退来捕获渲染后的内容。
  6. 最终输出以纯净 Markdown 形式返回,包括源 URL 和使用的特定提取方法。

Web Markdown 导航器 配置指南

要将此工具集成到您的本地环境中,请导航到脚本目录并使用 Node.js 执行运行程序:

cd skills/web-markdown-navigator/scripts
node fetch-markdown.mjs "" --max-chars 50000

请确保您的环境已按照 Openclaw Skills 仓库指南的要求安装了必要的依赖项。

Web Markdown 导航器 数据架构与分类体系

Web Markdown 导航器组织其输出,使其对下游 AI 智能体具有高度可预测性。数据通常按以下分类返回:

属性 描述
Content 转换为 Markdown 格式的正文文本。
Source URL 用于提取的原始网址。
Method 指示使用了 readability 还是 fallback-text 的标签。
Truncation Flag 如果内容因 max-chars 限制而被截断,则附加到内容的注释。
Error Codes 用于排查参数、屏蔽或网络故障的标准化退出代码 (1-4)。
name: web-markdown-navigator
description: Fetch webpages and return clean markdown instead of raw HTML. Use for URL reading, extraction, and summarization tasks where the user wants markdown output; use browser fallback for JS-heavy/SPA pages when extraction is thin.

Web Markdown Navigator

Use this skill for deterministic URL → markdown extraction.

Quick flow

  1. Run script:
    • cd /Users/pedrogonzalez/clawd/skills/web-markdown-navigator/scripts
    • node fetch-markdown.mjs "" --max-chars 50000
  2. If exit code 0, return markdown output.
  3. If exit code 3 or 4, or output is thin/boilerplate, use browser tool fallback to capture rendered content and return markdown summary.

Script

node scripts/fetch-markdown.mjs [--max-chars N] [--timeout-ms N] [--json]

Behavior:

  • Layer 1: Fetch HTML + Mozilla Readability + Turndown markdown conversion.
  • Layer 2: Fallback plain-text markdown if extraction is too thin.
  • URL safety checks block localhost/private literal IPv4 hosts.

Output requirements

  • Return markdown only (no raw HTML dump).
  • Preserve source URL in response.
  • If truncated, include truncation note.
  • If fallback was needed, mention method used (readability or fallback-text).

Error handling

  • 1 bad args
  • 2 invalid/blocked URL
  • 3 network/fetch/content-type failure
  • 4 extraction failure/thin output

For extended notes and troubleshooting, read:

  • /Users/pedrogonzalez/clawd/skills/web-markdown-navigator/references/usage.md