Web Scraper:使用 r.jina.ai 绕过 Cloudflare - Openclaw Skills

作者:互联网

2026-03-30

AI教程

什么是 Web Scraper (r.jina.ai)?

Web Scraper 技能旨在简化从受 Cloudflare、Turnstile 和其他现代机器人检测系统保护的网站中提取数据的过程。通过利用 r.jina.ai API,此技能允许用户将复杂的网页结构转换为简洁的、适用于大语言模型(LLM)的 Markdown。它是开发者构建需要可靠访问高安全性域名内容的 Openclaw Skills 的必备工具。

该工具在受保护的网页内容与您的 AI 代理之间提供了无缝桥梁。无论您是处理社交媒体平台还是新闻网站,此技能都能确保您的 Openclaw Skills 在不被常见防火墙技术拦截的情况下获取所需数据。

下载入口:https://github.com/openclaw/skills/tree/main/skills/itonlyforfun-ai/web-scraper-jina

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install web-scraper-jina

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 web-scraper-jina。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

Web Scraper (r.jina.ai) 应用场景

  • 从 Truth Social、Gab 和 Gettr 等社交媒体平台提取内容。
  • 绕过新闻和商业网站上的 Cloudflare 和 Turnstile 保护。
  • 将复杂的 HTML 网页转换为简洁的 Markdown,供 LLM 使用。
  • 作为更广泛的 Openclaw Skills 套件的一部分,监控竞争对手网站和金融平台。
Web Scraper (r.jina.ai) 工作原理
  1. 确定受保护或需要提取内容的方目标 URL。
  2. 在目标地址前加上 r.jina.ai 代理 URL。
  3. 通过代理服务提交 GET 请求。
  4. 接收处理后的页面内容(简洁的 Markdown 字符串),以便在您的 Openclaw Skills 工作流中使用。

Web Scraper (r.jina.ai) 配置指南

在 Openclaw Skills 环境中使用此技能无需复杂的本地依赖,因为它利用了 r.jina.ai 网络服务。

# 使用 CURL 抓取受保护网站的示例
curl -s "https://r.jina.ai/https://truthsocial.com/@realDonaldTrump"
# Python 中的示例实现
import requests

def scrape_site(url):
    response = requests.get(f"https://r.jina.ai/{url}")
    return response.text

Web Scraper (r.jina.ai) 数据架构与分类体系

该技能遵循简单的请求-响应模式,可轻松集成到任何 Openclaw Skills 架构中。

组件 类型 描述
输入 URL 字符串 要抓取的完整目标 URL
输出格式 字符串 格式整洁的 Markdown 文本
API 提供商 服务 r.jina.ai(兼容免费层级)
name: Web Scraper (r.jina.ai)
description: Bypass Cloudflare and scrape any website using r.jina.ai API. Works on sites with strong protection like Truth Social, Cloudflare Turnstile, etc.
version: "1.0.0"
author: Liuge
tags:
  - web
  - scraper
  - cloudflare
  - bypass
  - jina

Web Scraper using r.jina.ai

Bypass Cloudflare and scrape any website using free r.jina.ai API.

Features

  • Bypass Cloudflare, Turnstile, and other protections
  • Works on Truth Social, Bitget, and other protected sites
  • Returns clean Markdown content
  • Free to use

Usage

Simply prepend https://r.jina.ai/ to any URL:

https://r.jina.ai/https://truthsocial.com/@realDonaldTrump
https://r.jina.ai/https://bitget.com/events/poolx

Examples

Get Trump Truth Social posts:

curl -s "https://r.jina.ai/https://truthsocial.com/@realDonaldTrump"

Get any protected page:

curl -s "https://r.jina.ai/https://example.com"

In Code

import requests

def scrape(url):
    return requests.get(f"https://r.jina.ai/{url}").text

Use Cases

  • Scrape Truth Social, Gab, Gettr
  • Bypass Cloudflare protected sites
  • Extract content from news articles
  • Monitor competitors