Jina Reader:从 URL 提取纯净 Markdown - Openclaw Skills
作者:互联网
2026-03-29
什么是 Jina Reader 内容提取器?
jina-reader 技能是一个专门设计的工具,旨在弥合复杂 Web 架构与 AI 处理之间的鸿沟。通过利用 Jina Reader API,此 Openclaw Skills 组件可以剥离 HTML 样板、JavaScript 噪声,甚至某些付费墙,以交付结构化的 Markdown 内容。对于构建重度研究工作流或需要可靠地消费 Web 内容且无需手动抓取开销的 AI 智能体的开发者来说,这是一项必不可少的资产。
该技能可确保您的 AI 智能体接收高质量、可读的文本以及标题和发布日期等关键元数据。它与现有的 Openclaw Skills 无缝集成,为自动化内容分析和信息检索提供坚实基础。无论您是处理单篇文章还是批量处理多个来源,该技能都能提供高精度 LLM 性能所需的纯净数据。
下载入口:https://github.com/openclaw/skills/tree/main/skills/smile-xuc/haibo-jina-reader
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install haibo-jina-reader
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 haibo-jina-reader。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
Jina Reader 内容提取器 应用场景
- 在没有 HTML 干扰的情况下总结长篇文章或博客文章。
- 将来自其他 Openclaw Skills 的搜索引擎结果处理为结构化数据。
- 为技术文档进行自动化研究和数据收集。
- 构建需要来自各种 Web 源的纯净文本输入的内容分析管道。
- 绕过现代 JavaScript 密集型网站上的渲染问题,以实现更快的数据提取。
- 用户或智能体向 Openclaw Skills 套件提供的脚本提供目标 URL。
- 该技能向 Jina Reader API 发送请求,后者负责页面渲染和内容提取。
- API 处理页面以删除广告、导航菜单和非必要的 HTML 元素。
- 该技能接收处理后的 Markdown 内容及相关元数据(如标题和时间戳)。
- 根据请求的格式,数据以原始 Markdown 或结构化 JSON 对象的形式返回,以便在 Openclaw Skills 生态系统中进一步处理。
Jina Reader 内容提取器 配置指南
要在您的环境中使用此技能,请确保您的目录中有必要的脚本。
# 使脚本可执行
chmod +x scripts/jina-reader.py scripts/jina-reader.sh
# 基本用法以验证安装
scripts/jina-reader.sh https://example.com
确保您的环境已配置为允许向 Jina Reader API 发送出站请求。基本用法不需要复杂的 API 密钥,因为此技能利用了标准的 Openclaw Skills 模式。
Jina Reader 内容提取器 数据架构与分类体系
该技能将数据组织成结构化格式,以确保与其他 Openclaw Skills 的兼容性。
| 字段 | 类型 | 描述 |
|---|---|---|
| status | String | 指示提取成功或失败。 |
| metadata.title | String | 提取的网页标题。 |
| metadata.url | String | 原始源 URL。 |
| metadata.published | String | 发布日期(如果可用,GMT 格式)。 |
| content | String | 转换为纯净 Markdown 的主体文本。 |
name: jina-reader
description: Extract clean, readable markdown content from any URL using Jina Reader API. Use when you need to fetch and parse web pages without dealing with HTML, JavaScript rendering, or paywalls. Ideal for research, article summarization, content analysis, and working with search results from tavily-search, web_search, or searxng skills.
Jina Reader
Overview
Jina Reader provides clean markdown extraction from any URL, bypassing HTML complexity, JavaScript rendering, and many paywalls. It returns structured text content with metadata (title, URL, published time) that's perfect for AI analysis.
Quick Start
Extract markdown content
scripts/jina-reader.py
Extract with JSON metadata
scripts/jina-reader.py --format json
Save to file
scripts/jina-reader.py -o output.md
Core Operations
1. Basic Extraction
Extract clean markdown from any URL:
scripts/jina-reader.py https://example.com/article
Returns: Full markdown content including title, metadata headers, and structured text.
Use when: You need readable text from a webpage for summarization, analysis, or content processing.
2. JSON Format
Get structured data with metadata:
scripts/jina-reader.py https://example.com/article --format json
Returns:
{
"status": "success",
"metadata": {
"title": "Article Title",
"url": "https://example.com/article",
"published": "Mon, 10 Feb 2026 12:00:00 GMT"
},
"content": "Markdown content..."
}
Use when: You need programmatic access to metadata or want to integrate with other tools.
3. Shell Script Quick Access
For simple one-liners:
scripts/jina-reader.sh https://example.com/article
Returns: Raw markdown content directly to stdout.
Use when: Quick extraction without arguments or when piping to other commands.
Usage Patterns
Combining with Search
When using tavily-search, web_search, or searxng skills:
- Get search results with relevant URLs
- Extract content from top results using jina-reader
- Process and summarize the extracted content
# Example workflow
URL="https://example.com/article"
scripts/jina-reader.py "$URL" --format json | jq -r '.content'
Batch Processing
Extract from multiple URLs:
for url in $(cat urls.txt); do
scripts/jina-reader.py "$url" -o "output/$(basename $url).md"
done
Content Analysis
Pipe extracted content to analysis tools:
scripts/jina-reader.py https://example.com/article | wc -w
scripts/jina-reader.py https://example.com/article | grep -i "keyword"
Options
Python Script (jina-reader.py)
url(required): The URL to extract content from-f, --format: Output format -markdownorjson(default: markdown)-t, --timeout: Request timeout in seconds (default: 30)-o, --output: Save output to file instead of stdout
Shell Script (jina-reader.sh)
url(required): The URL to extract content from
Limitations
- Timeout: Default 30 seconds. Increase with
-tfor slow-loading pages - Rate limits: Jina Reader API has rate limits. Use batching strategically
- Dynamic content: Can't extract content generated by client-side JavaScript after page load
- Authentication: Can't access pages requiring login or special headers
Troubleshooting
Timeout errors
scripts/jina-reader.py -t 60 # Increase timeout
Invalid URLs
The tool auto-prepends https:// if missing. Use fully qualified URLs for reliability.
Empty content
Some pages may block scraping. Try the shell script as fallback, or verify the URL is accessible.
Resources
scripts/jina-reader.py
Full-featured Python tool with JSON output, metadata extraction, and file saving.
scripts/jina-reader.sh
Lightweight shell script for quick markdown extraction.
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
信号管道:自动化营销情报工具 - Openclaw Skills
技能收益追踪器:监控 Openclaw 技能并实现变现
AI 合规准备就绪度:评估与治理工具 - Openclaw Skills
FOSMVVM ServerRequest 测试生成器:自动化 API 测试 - Openclaw Skills
酒店搜索器:AI 赋能的住宿与位置情报 - Openclaw Skills
Dub 链接 API:程序化链接管理 - Openclaw Skills
IntercomSwap:P2P BTC 与 USDT 跨链兑换 - Openclaw Skills
spotplay:macOS 原生 Spotify 播放控制 - Openclaw Skills
DeepSeek OCR:AI驱动的图像文本识别 - Openclaw Skills
Web Navigator:自动化网页研究与浏览 - Openclaw Skills
AI精选
