开发者社区爆发:Claude Code 2月更新后质量严重回退,思考token成致命变量
作者:互联网
2026-04-07
开发者社区爆发:Claude Code 2月更新后质量严重回退,思考token成致命变量
一份由开发者stellaraccident提交的GitHub Issue #42796在社区引爆,获得792个赞与478条评论,登上Hacker News首页前十。Issue详细分析了Claude Code在2026年2月更新后对复杂工程任务的质量回退,并通过对6个月以上会话日志的数据挖掘,把根因指向了思考token被大幅压缩这一隐性变量。
四大可复现问题
- 忽略用户明确指令
- 频繁宣称已经做了最简单的修复但实际错误
- 执行与要求完全相反的操作
- 违反明确指令却声称任务已完成
影响等级被标记为High,相同提示词每次都能复现。作者选用的模型是Opus,调用来自Anthropic API。

思考token的时间线高度吻合
作者让Claude自行分析了6852份Claude Code会话JSONL,涵盖17871个思考块和234760次工具调用。数据显示1月30日至3月4日思考块100%可见,3月8日降至41.6%,3月12日起完全被redacted;社区对质量回退的独立报告恰好也集中在3月8日前后——与思考块可见比例跌破50%的时间几乎完全吻合。
思考深度缩水67%到75%
估算的中位思考token长度从2月初的约2200字符,到2月末降至约720字符,再到3月初进一步压缩到约560字符,回退幅度高达75%。
行为指标集体恶化
- Stop hook违规从0增至173,约每天10次
- 挫败感表达从5.8%升至9.8%,增幅68%
- 推卸责任式修正翻倍增长
- Read与Edit比从6.6跌至2.0,意味着模型开始不读代码就直接改
在降级期,33.7%的Edit是在没有先读取对应文件的情况下执行的,而良好期仅为6.2%。作者总结:模型从研究优先变成了编辑优先,而这是资深工程任务中最危险的行为模式。
对Anthropic的四项诉求
- 透明披露思考token分配策略
- 推出保证深度思考预算的Max Thinking档位
- 在API响应中暴露thinking_tokens指标
- 把stop hook违规率作为质量回退的金丝雀指标
Issue最终被标记为COMPLETED关闭,但它留下的数据方法论已经成为社区衡量LLM质量回退的新范式。
相关标签:
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
从零搭建 AI 智能体:OpenClaw 2.6.2 Windows 一键部署超详细教程
AI 英语教育 APP 的开发
Tokens是什么?AI大模型中的Token是干什么的?开通百炼可以免费领取7000万Tokens
什么是阿里云AI通用型节省计划?AI大模型节省计划Tokens如何计费?
《TikTok 商品详情页前端性能优化实战》
一个客户需求,捅穿了 Anthropic 整套 Agent 架构
Claude 开始进桌面之后,AI 系统的测试边界是不是又变了?
4. OpenClaw 2.6.2 常见问题排查|部署与使用避坑指南
本地 AI 智能体 OpenClaw 2.6.2 环境搭建教程
OpenClaw 2026最新使用手册
AI精选
