Jina Reader:从 URL 提取纯净 Markdown - Openclaw Skills

作者:互联网

2026-03-29

AI教程

什么是 Jina Reader 内容提取器?

jina-reader 技能是一个专门设计的工具,旨在弥合复杂 Web 架构与 AI 处理之间的鸿沟。通过利用 Jina Reader API,此 Openclaw Skills 组件可以剥离 HTML 样板、JavaScript 噪声,甚至某些付费墙,以交付结构化的 Markdown 内容。对于构建重度研究工作流或需要可靠地消费 Web 内容且无需手动抓取开销的 AI 智能体的开发者来说,这是一项必不可少的资产。

该技能可确保您的 AI 智能体接收高质量、可读的文本以及标题和发布日期等关键元数据。它与现有的 Openclaw Skills 无缝集成,为自动化内容分析和信息检索提供坚实基础。无论您是处理单篇文章还是批量处理多个来源,该技能都能提供高精度 LLM 性能所需的纯净数据。

下载入口:https://github.com/openclaw/skills/tree/main/skills/smile-xuc/haibo-jina-reader

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install haibo-jina-reader

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 haibo-jina-reader。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

Jina Reader 内容提取器 应用场景

  • 在没有 HTML 干扰的情况下总结长篇文章或博客文章。
  • 将来自其他 Openclaw Skills 的搜索引擎结果处理为结构化数据。
  • 为技术文档进行自动化研究和数据收集。
  • 构建需要来自各种 Web 源的纯净文本输入的内容分析管道。
  • 绕过现代 JavaScript 密集型网站上的渲染问题,以实现更快的数据提取。
Jina Reader 内容提取器 工作原理
  1. 用户或智能体向 Openclaw Skills 套件提供的脚本提供目标 URL。
  2. 该技能向 Jina Reader API 发送请求,后者负责页面渲染和内容提取。
  3. API 处理页面以删除广告、导航菜单和非必要的 HTML 元素。
  4. 该技能接收处理后的 Markdown 内容及相关元数据(如标题和时间戳)。
  5. 根据请求的格式,数据以原始 Markdown 或结构化 JSON 对象的形式返回,以便在 Openclaw Skills 生态系统中进一步处理。

Jina Reader 内容提取器 配置指南

要在您的环境中使用此技能,请确保您的目录中有必要的脚本。

# 使脚本可执行
chmod +x scripts/jina-reader.py scripts/jina-reader.sh

# 基本用法以验证安装
scripts/jina-reader.sh https://example.com

确保您的环境已配置为允许向 Jina Reader API 发送出站请求。基本用法不需要复杂的 API 密钥,因为此技能利用了标准的 Openclaw Skills 模式。

Jina Reader 内容提取器 数据架构与分类体系

该技能将数据组织成结构化格式,以确保与其他 Openclaw Skills 的兼容性。

字段 类型 描述
status String 指示提取成功或失败。
metadata.title String 提取的网页标题。
metadata.url String 原始源 URL。
metadata.published String 发布日期(如果可用,GMT 格式)。
content String 转换为纯净 Markdown 的主体文本。
name: jina-reader
description: Extract clean, readable markdown content from any URL using Jina Reader API. Use when you need to fetch and parse web pages without dealing with HTML, JavaScript rendering, or paywalls. Ideal for research, article summarization, content analysis, and working with search results from tavily-search, web_search, or searxng skills.

Jina Reader

Overview

Jina Reader provides clean markdown extraction from any URL, bypassing HTML complexity, JavaScript rendering, and many paywalls. It returns structured text content with metadata (title, URL, published time) that's perfect for AI analysis.

Quick Start

Extract markdown content

scripts/jina-reader.py 

Extract with JSON metadata

scripts/jina-reader.py  --format json

Save to file

scripts/jina-reader.py  -o output.md

Core Operations

1. Basic Extraction

Extract clean markdown from any URL:

scripts/jina-reader.py https://example.com/article

Returns: Full markdown content including title, metadata headers, and structured text.

Use when: You need readable text from a webpage for summarization, analysis, or content processing.

2. JSON Format

Get structured data with metadata:

scripts/jina-reader.py https://example.com/article --format json

Returns:

{
  "status": "success",
  "metadata": {
    "title": "Article Title",
    "url": "https://example.com/article",
    "published": "Mon, 10 Feb 2026 12:00:00 GMT"
  },
  "content": "Markdown content..."
}

Use when: You need programmatic access to metadata or want to integrate with other tools.

3. Shell Script Quick Access

For simple one-liners:

scripts/jina-reader.sh https://example.com/article

Returns: Raw markdown content directly to stdout.

Use when: Quick extraction without arguments or when piping to other commands.

Usage Patterns

When using tavily-search, web_search, or searxng skills:

  1. Get search results with relevant URLs
  2. Extract content from top results using jina-reader
  3. Process and summarize the extracted content
# Example workflow
URL="https://example.com/article"
scripts/jina-reader.py "$URL" --format json | jq -r '.content'

Batch Processing

Extract from multiple URLs:

for url in $(cat urls.txt); do
  scripts/jina-reader.py "$url" -o "output/$(basename $url).md"
done

Content Analysis

Pipe extracted content to analysis tools:

scripts/jina-reader.py https://example.com/article | wc -w
scripts/jina-reader.py https://example.com/article | grep -i "keyword"

Options

Python Script (jina-reader.py)

  • url (required): The URL to extract content from
  • -f, --format: Output format - markdown or json (default: markdown)
  • -t, --timeout: Request timeout in seconds (default: 30)
  • -o, --output: Save output to file instead of stdout

Shell Script (jina-reader.sh)

  • url (required): The URL to extract content from

Limitations

  • Timeout: Default 30 seconds. Increase with -t for slow-loading pages
  • Rate limits: Jina Reader API has rate limits. Use batching strategically
  • Dynamic content: Can't extract content generated by client-side JavaScript after page load
  • Authentication: Can't access pages requiring login or special headers

Troubleshooting

Timeout errors

scripts/jina-reader.py  -t 60  # Increase timeout

Invalid URLs

The tool auto-prepends https:// if missing. Use fully qualified URLs for reliability.

Empty content

Some pages may block scraping. Try the shell script as fallback, or verify the URL is accessible.

Resources

scripts/jina-reader.py

Full-featured Python tool with JSON output, metadata extraction, and file saving.

scripts/jina-reader.sh

Lightweight shell script for quick markdown extraction.