Jina Web Fetcher:为 AI 智能体设计的 Markdown 网页抓取工具 - Openclaw Skills

作者:互联网

2026-03-30

其他

什么是 Jina Web Fetcher?

Jina Web Fetcher 是 Openclaw Skills 生态系统中的一个精简工具,赋予开发者和 AI 智能体从几乎任何 URL 提取内容的能力。通过使用 Jina AI 阅读器服务,它可以绕过常见的搜索引擎限制和反爬虫请求头,交付页面的核心内容,而无需处理脚本或样式表等噪音。该技能对于构建需要以结构化、可读格式从 Web 摄取实时数据的研究型智能体特别有价值。

由于它将原始 HTML 转换为 Markdown,因此显著减少了 Token 使用量,并提高了连接语言模型的推理准确性。无论您是在构建新闻聚合器还是竞争情报工具,该技能都在开放网络和 AI 工作流之间提供了可靠的桥梁。

下载入口:https://github.com/openclaw/skills/tree/main/skills/xaiohuangningde/jina-web-fetcher

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install jina-web-fetcher

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 jina-web-fetcher。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

Jina Web Fetcher 应用场景

  • 自动从 Hacker News 等新闻网站检索干净的内容进行摘要。
  • 通过编程抓取 GitHub Trending 页面来监控开发者趋势。
  • 绕过搜索引擎拦截,检索实时 Google 搜索结果以进行研究任务。
  • 将特定的技术文章摄取到知识库或 RAG 管道中,无需手动复制粘贴。
Jina Web Fetcher 工作原理
  1. 智能体识别目标 URL 或构建 Google 搜索查询。
  2. 在 URL 前加上 Jina AI 代理端点 (r.jina.ai)。
  3. 向代理发送标准的 curl 请求,代理负责渲染和提取。
  4. 服务以干净的 Markdown 格式返回页面的主要内容。
  5. AI 智能体使用输出进行进一步分析、存储或生成响应。

Jina Web Fetcher 配置指南

Jina Web Fetcher 无需复杂的安装或环境配置。它作为一个无状态工具运行,可以通过任何标准 HTTP 客户端调用。要在 Openclaw Skills 框架内开始使用,您可以直接通过命令行进行测试:

# 抓取特定网站
curl -s "https://r.jina.ai/http://example.com"

# 抓取 Google 搜索结果
curl -s "https://r.jina.ai/http://www.google.com/search?q=openclaw"

Jina Web Fetcher 数据架构与分类体系

该技能遵循简单的请求-响应模式。它不维护本地数据库,但有助于数据流入智能体的内存或存储。

属性 描述 协议
输入 带有代理前缀的目标 URL HTTP GET
输出 Markdown 格式的页面内容 文本/Markdown
代理 r.jina.ai HTTPS
name: jina-web-fetcher
description: 使用 Jina AI 抓取网页内容,绕过搜索引擎限制。支持任意URL,支持 Google 搜索结果抓取。

Jina Web Fetcher

使用 Jina AI 服务抓取网页内容。

安装

无需安装,直接使用 curl。

使用

# 抓取任意网页
curl -s "https://r.jina.ai/http://目标URL"

# 抓取 Google 搜索结果
curl -s "https://r.jina.ai/http://www.google.com/search?q=搜索词"

示例

# 抓取 GitHub Trending
curl -s "https://r.jina.ai/http://github.com/trending"

# 抓取 Hacker News
curl -s "https://r.jina.ai/http://news.ycombinator.com"

# 抓取特定文章
curl -s "https://r.jina.ai/http://example.com/article"

注意

  • Google 被封锁时使用 r.jina.ai 仍可能被拦截
  • 大部分网站都可以正常抓取