Web Scraper:使用 r.jina.ai 绕过 Cloudflare - Openclaw Skills
作者:互联网
2026-03-30
什么是 Web Scraper (r.jina.ai)?
Web Scraper 技能旨在简化从受 Cloudflare、Turnstile 和其他现代机器人检测系统保护的网站中提取数据的过程。通过利用 r.jina.ai API,此技能允许用户将复杂的网页结构转换为简洁的、适用于大语言模型(LLM)的 Markdown。它是开发者构建需要可靠访问高安全性域名内容的 Openclaw Skills 的必备工具。
该工具在受保护的网页内容与您的 AI 代理之间提供了无缝桥梁。无论您是处理社交媒体平台还是新闻网站,此技能都能确保您的 Openclaw Skills 在不被常见防火墙技术拦截的情况下获取所需数据。
下载入口:https://github.com/openclaw/skills/tree/main/skills/itonlyforfun-ai/web-scraper-jina
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install web-scraper-jina
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 web-scraper-jina。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
Web Scraper (r.jina.ai) 应用场景
- 从 Truth Social、Gab 和 Gettr 等社交媒体平台提取内容。
- 绕过新闻和商业网站上的 Cloudflare 和 Turnstile 保护。
- 将复杂的 HTML 网页转换为简洁的 Markdown,供 LLM 使用。
- 作为更广泛的 Openclaw Skills 套件的一部分,监控竞争对手网站和金融平台。
- 确定受保护或需要提取内容的方目标 URL。
- 在目标地址前加上 r.jina.ai 代理 URL。
- 通过代理服务提交 GET 请求。
- 接收处理后的页面内容(简洁的 Markdown 字符串),以便在您的 Openclaw Skills 工作流中使用。
Web Scraper (r.jina.ai) 配置指南
在 Openclaw Skills 环境中使用此技能无需复杂的本地依赖,因为它利用了 r.jina.ai 网络服务。
# 使用 CURL 抓取受保护网站的示例
curl -s "https://r.jina.ai/https://truthsocial.com/@realDonaldTrump"
# Python 中的示例实现
import requests
def scrape_site(url):
response = requests.get(f"https://r.jina.ai/{url}")
return response.text
Web Scraper (r.jina.ai) 数据架构与分类体系
该技能遵循简单的请求-响应模式,可轻松集成到任何 Openclaw Skills 架构中。
| 组件 | 类型 | 描述 |
|---|---|---|
| 输入 URL | 字符串 | 要抓取的完整目标 URL |
| 输出格式 | 字符串 | 格式整洁的 Markdown 文本 |
| API 提供商 | 服务 | r.jina.ai(兼容免费层级) |
name: Web Scraper (r.jina.ai)
description: Bypass Cloudflare and scrape any website using r.jina.ai API. Works on sites with strong protection like Truth Social, Cloudflare Turnstile, etc.
version: "1.0.0"
author: Liuge
tags:
- web
- scraper
- cloudflare
- bypass
- jina
Web Scraper using r.jina.ai
Bypass Cloudflare and scrape any website using free r.jina.ai API.
Features
- Bypass Cloudflare, Turnstile, and other protections
- Works on Truth Social, Bitget, and other protected sites
- Returns clean Markdown content
- Free to use
Usage
Simply prepend https://r.jina.ai/ to any URL:
https://r.jina.ai/https://truthsocial.com/@realDonaldTrump
https://r.jina.ai/https://bitget.com/events/poolx
Examples
Get Trump Truth Social posts:
curl -s "https://r.jina.ai/https://truthsocial.com/@realDonaldTrump"
Get any protected page:
curl -s "https://r.jina.ai/https://example.com"
In Code
import requests
def scrape(url):
return requests.get(f"https://r.jina.ai/{url}").text
Use Cases
- Scrape Truth Social, Gab, Gettr
- Bypass Cloudflare protected sites
- Extract content from news articles
- Monitor competitors
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
信号管道:自动化营销情报工具 - Openclaw Skills
技能收益追踪器:监控 Openclaw 技能并实现变现
AI 合规准备就绪度:评估与治理工具 - Openclaw Skills
FOSMVVM ServerRequest 测试生成器:自动化 API 测试 - Openclaw Skills
酒店搜索器:AI 赋能的住宿与位置情报 - Openclaw Skills
Dub 链接 API:程序化链接管理 - Openclaw Skills
IntercomSwap:P2P BTC 与 USDT 跨链兑换 - Openclaw Skills
spotplay:macOS 原生 Spotify 播放控制 - Openclaw Skills
DeepSeek OCR:AI驱动的图像文本识别 - Openclaw Skills
Web Navigator:自动化网页研究与浏览 - Openclaw Skills
AI精选
