Jina Web Fetcher:为 AI 智能体设计的 Markdown 网页抓取工具 - Openclaw Skills
作者:互联网
2026-03-30
什么是 Jina Web Fetcher?
Jina Web Fetcher 是 Openclaw Skills 生态系统中的一个精简工具,赋予开发者和 AI 智能体从几乎任何 URL 提取内容的能力。通过使用 Jina AI 阅读器服务,它可以绕过常见的搜索引擎限制和反爬虫请求头,交付页面的核心内容,而无需处理脚本或样式表等噪音。该技能对于构建需要以结构化、可读格式从 Web 摄取实时数据的研究型智能体特别有价值。
由于它将原始 HTML 转换为 Markdown,因此显著减少了 Token 使用量,并提高了连接语言模型的推理准确性。无论您是在构建新闻聚合器还是竞争情报工具,该技能都在开放网络和 AI 工作流之间提供了可靠的桥梁。
下载入口:https://github.com/openclaw/skills/tree/main/skills/xaiohuangningde/jina-web-fetcher
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install jina-web-fetcher
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 jina-web-fetcher。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
Jina Web Fetcher 应用场景
- 自动从 Hacker News 等新闻网站检索干净的内容进行摘要。
- 通过编程抓取 GitHub Trending 页面来监控开发者趋势。
- 绕过搜索引擎拦截,检索实时 Google 搜索结果以进行研究任务。
- 将特定的技术文章摄取到知识库或 RAG 管道中,无需手动复制粘贴。
- 智能体识别目标 URL 或构建 Google 搜索查询。
- 在 URL 前加上 Jina AI 代理端点 (r.jina.ai)。
- 向代理发送标准的 curl 请求,代理负责渲染和提取。
- 服务以干净的 Markdown 格式返回页面的主要内容。
- AI 智能体使用输出进行进一步分析、存储或生成响应。
Jina Web Fetcher 配置指南
Jina Web Fetcher 无需复杂的安装或环境配置。它作为一个无状态工具运行,可以通过任何标准 HTTP 客户端调用。要在 Openclaw Skills 框架内开始使用,您可以直接通过命令行进行测试:
# 抓取特定网站
curl -s "https://r.jina.ai/http://example.com"
# 抓取 Google 搜索结果
curl -s "https://r.jina.ai/http://www.google.com/search?q=openclaw"
Jina Web Fetcher 数据架构与分类体系
该技能遵循简单的请求-响应模式。它不维护本地数据库,但有助于数据流入智能体的内存或存储。
| 属性 | 描述 | 协议 |
|---|---|---|
| 输入 | 带有代理前缀的目标 URL | HTTP GET |
| 输出 | Markdown 格式的页面内容 | 文本/Markdown |
| 代理 | r.jina.ai | HTTPS |
name: jina-web-fetcher
description: 使用 Jina AI 抓取网页内容,绕过搜索引擎限制。支持任意URL,支持 Google 搜索结果抓取。
Jina Web Fetcher
使用 Jina AI 服务抓取网页内容。
安装
无需安装,直接使用 curl。
使用
# 抓取任意网页
curl -s "https://r.jina.ai/http://目标URL"
# 抓取 Google 搜索结果
curl -s "https://r.jina.ai/http://www.google.com/search?q=搜索词"
示例
# 抓取 GitHub Trending
curl -s "https://r.jina.ai/http://github.com/trending"
# 抓取 Hacker News
curl -s "https://r.jina.ai/http://news.ycombinator.com"
# 抓取特定文章
curl -s "https://r.jina.ai/http://example.com/article"
注意
- Google 被封锁时使用 r.jina.ai 仍可能被拦截
- 大部分网站都可以正常抓取
相关推荐
