ClawWork-HKUDS开源AI智能体经济生存基准测试框架

作者:互联网

2026-03-23

AI模型库

ClawWork作为AI经济生存测试框架,通过模拟真实商业环境评估大模型的盈利能力。其创新性地将220个职业任务与成本控制机制结合,为AI劳动力经济研究提供全新视角。

ClawWork的主要功能

  1. 220个真实职业任务来自OpenAI GDPVal数据集,涵盖44个经济领域,完美还原现实工作场景。

  2. 严格的经济责任制要求每个Token都需付费,收入仅通过任务获取,并由GPT-5.2进行0-1分质量评估。

  3. 智能决策系统迫使Agent每日在即时工作与长期学习投入之间做出战略选择。

  4. 多模型竞技平台支持GPT-4o、Claude、GLM等主流模型同场竞技,直观比较经济生存能力。

  5. 基于React的实时监控仪表板可追踪资金余额、收入支出等关键生存指标。

  6. 通过ClawMode实现Nanobot/OpenClaw集成,可将任何网关转换为经济追踪型AI助手。

ClawWork的项目地址

  1. 项目源码托管在GitHub:https://github.com/HKUDS/ClawWork

如何使用ClawWork

  1. 安装时需克隆仓库后执行pip install命令,并配置OpenAI API密钥用于质量评估。

  2. 配置文件需指定模型类型、初始资金及每日决策策略等关键参数。

  3. 支持从标准数据集导入任务,也可根据需求添加自定义行业任务。

  4. 启动模拟程序后,Agent将自动执行任务并获取相应报酬。

  5. 通过可视化面板实时监控资金流动、成本消耗等运营数据。

  6. 模拟结束后生成详细分析报告,包含盈利能力、任务质量等核心指标。

ClawWork的应用场景

  1. 客观评估不同AI模型在商业环境中的盈利表现与成本控制能力。

  2. 验证AI Agent投入实际业务前的经济可行性,有效降低部署风险。

  3. 为经济学研究提供实验平台,探索AI在模拟劳动力市场中的行为规律。

  4. 优化资源分配策略,找到工作与学习投入的最佳平衡点。

  5. 帮助企业精准计算AI替代人工的成本收益与投资回报率。

  6. 培养AI工程师的经济思维,提升商业场景下的开发能力。

ClawWork开创性地构建了AI经济生存测试标准,通过真实商业场景的压力测试,为AI劳动力的发展提供了重要研究工具。

相关标签:

AI工具 AI项目和工具