Geepers Corpus:语言分析与 COCA 集成 - Openclaw Skills

作者:互联网

2026-03-31

AI教程

什么是 Geepers Corpus?

Geepers Corpus 是 Openclaw Skills 的专业技术集成,提供对美国当代英语语料库 (COCA) 的程序化访问。通过与涵盖小说、学术期刊和口语媒体等不同流派的超过 10 亿个单词的数据库对接,该技能使 AI 代理能够验证现实世界的语言使用情况。它是确保文体准确性和语言精确性的重要工具。

此 Openclaw Skills 技能允许开发人员和研究人员通过分析 1990 年至今美式英语中单词的实际使用方式,超越简单的词典定义。它弥合了静态语言模型与动态、数据驱动的语言分析之间的差距。

下载入口:https://github.com/openclaw/skills/tree/main/skills/lukeslp/geepers-corpus

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install geepers-corpus

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级:工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 geepers-corpus。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。

Geepers Corpus 应用场景

  • 在美式英语资源中验证特定术语的正式程度或频率。
  • 寻找自然的词汇搭配,以提高生成内容的流畅度和真实性。
  • 针对语境中的关键词 (KWIC) 使用模式进行学术语言研究。
  • 识别不同年代和流派的历史使用趋势和频率变化。
Geepers Corpus 工作原理
  1. 技能通过使用安全环境变量在 Dreamer API 进行身份验证来初始化。
  2. 用户或 AI 代理触发特定的查询类型,例如单词搜索、搭配分析或频率检查。
  3. 系统处理流派过滤器(如学术、小说)等参数,以缩小语言数据的范围。
  4. API 返回包含使用示例、MI 分数和每百万词频指标的结构化 JSON 数据,供 Openclaw Skills 解释和展示。

Geepers Corpus 配置指南

要在您的环境中激活此技能,请确保您拥有来自 Dreamer 服务的有效 API 密钥。通过在终端中运行以下命令来配置您的环境:

export DREAMER_API_KEY=your_key_here

密钥设置完成后,Openclaw Skills 即可成功将请求路由到 https://api.dr.eamer.dev 端点。

Geepers Corpus 数据架构与分类体系

Geepers Corpus 技能基于三个主要的语言功能组织数据。下表概述了返回给 Openclaw Skills 的数据结构:

功能 参数 返回数据
单词搜索 word, limit 显示使用示例的 KWIC(语境中的关键词)示例。
词汇搭配 word, pos, limit 包含 MI 分数和频率的统计共现数据。
词频 word, genre 特定媒体类型中每百万单词的出现频率。
name: geepers-corpus
description: Query the COCA (Corpus of Contemporary American English) linguistics API for word frequency, collocations, concordances, and historical usage trends. Use for linguistic research, writing assistance, or understanding how words are actually used in American English.

Dreamer Corpus

Access the COCA corpus API at https://api.dr.eamer.dev.

COCA contains 1+ billion words of contemporary American English from spoken, fiction, magazine, newspaper, and academic sources.

Authentication

export DREAMER_API_KEY=your_key_here

Endpoints

Word Search / Concordance

GET https://api.dr.eamer.dev/v1/corpus/search?word=serendipity&limit=20

Returns KWIC (keyword-in-context) examples showing the word in actual usage.

Collocations

GET https://api.dr.eamer.dev/v1/corpus/collocations?word=run&pos=verb&limit=20

Returns words that statistically co-occur with the target word (MI score, frequency).

Frequency

GET https://api.dr.eamer.dev/v1/corpus/frequency?word=algorithm&genre=academic

Returns frequency per million words, with optional genre filter: spoken, fiction, magazine, newspaper, academic.

When to Use

  • Checking how formal or common a word is in real American English
  • Finding natural collocations for writing assistance
  • Linguistic research on word usage patterns
  • Historical frequency trends across decades

Don't Use When

  • You need non-English corpora
  • You need corpora other than contemporary American English (COCA is 1990-present)

相关推荐