为什么你觉得LLM变笨了

社区的集体焦虑

近日，Anthropic（尤其是 Claude Code Opus 4.6）被大量用户抱怨"变笨"、"降智"。事情是不是真降了权重，官方和用户在各说各话。但可以确定焦虑已经扩散成跨平台的集体情绪。

GitHub 上，anthropics/claude-code 仓库里长串 issue 在讨论"质量回退"。例如 AMD 相关人士发过一份基于大量会话文件的分析，引发连锁讨论（见 Issue #42796）；同期还有用户报告 Opus 4.6 响应变慢、质量下滑（如 Issue #48167）。当用户开始用数据吵架，说明问题已经从体感升级成可定量事件了。

Reddit 的 r/ClaudeCode、r/claude 里，同类帖子更碎、更口语，但情绪更直白，有人吐槽"这几天 Opus 像没睡醒"，有人怀疑"新模型要上了所以老模型被削算力"，群众的眼光是雪亮的，一群人同时觉得工具链不对劲，说明 Opus 出问题了。

英文科技媒体也下场概括过这波争议，标题里直接用了"nerfing"这种玩家梗，把 GitHub、X、Reddit 上的抱怨串在一起报道（见 VentureBeat 相关报道）。

中文舆论场里，36氪、网易科技等做了长文综述，把 GitHub 上的定量分析和海外讨论等争议打包讲给国内读者（例如 36氪：Claude 故意降智？、网易科技：最强编程 AI 被指降智）。小红书、微博、即刻这类平台上更多是短帖、截图和梗图，你在站内搜「Claude 降智」「Opus 变笨」，能看到大量相似讨论。

我想写的不是"Anthropic 一定动手脚了"，当社区在不同平台用不同语言重复同一套感受，这件事本身就值得单独拿出来讲。我们从厂商视角拆解，他们到底可能在调什么。

为什么厂商要“降智”

很多人会问：厂商是不是疯了？为什么要主动把好好的模型改坏？

其实站在厂商的立场看，这背后可能有以下原因：

成本最直接的原因，就是钱。你可能觉得，我付了订阅费，厂商就应该给我最好的。但你要知道，运行像 Opus 这样级别的模型，推理成本是极其恐怖的。每一个 Token 的生成，背后都是成千上万张 H100 显卡在疯狂运转。为了让业务可持续，厂商必须优化推理成本。有时候，他们会通过“量化”给模型“瘦身”，降低精度以换取更低的算力消耗。虽然理论上性能损失很小，但反映在复杂任务上，模型可能就没那么“聪明”了。
安全与合规为了避免模型输出有害内容、法律风险，厂商会给模型套上Guardrails。通过 RLHF，厂商会不断教导模型：“不要回答这个问题”，这也可能导致模型变笨。也叫“对齐税”（Alignment Tax）问题。简单来说，就是为了让模型“变乖”、符合人类价值观，你不得不支付的性能代价。研究人员发现，模型中负责“逻辑推理”的神经元和负责“合规判断”的神经元，在物理空间上往往是高度重叠的。当你通过 RLHF 强行抑制那些可能产生“危险”想法的神经元时，很可能连带着把那些负责复杂逻辑推理的神经元也给“误伤”了。

为了防止模型教人做坏事，厂商可能顺手把模型处理复杂问题的逻辑能力也给“阉割”了。现在的模型，有时候表现得像一个过度谨慎的保姆，为了不出错，宁愿什么都不说，或者只说正确的废话。这种为了安全而牺牲智能的“税”，最终全由我们这些用户来买单。

“模型漂移” AI 模型不是静态的，厂商会不断地对模型进行微调以修复 Bug 或增加新功能。但 AI 的训练是一个“黑盒”，当你为了优化 A 能力（比如让它更听话）去调整模型时，往往会无意中削弱了 B 能力（比如它的逻辑推理能力）。厂商在更新模型时，往往很难保证在提升某一方面体验的同时，不损害其他方面的性能。
人为因素这是最可能的原因。

为了宣传即将推出的新模型，或者商业上的一些合作关系，甚至是为了强化其他模型，可能会出现人为减少算力，手动降智的行为。这种情况不亚于对用户的背叛。

谁在为“降智”买单

首当其冲的是会员用户，以前，我写代码或者做深度分析，Opus 能给我那种“心有灵犀”的反馈，我只需要给一个模糊的指令，它就能补全逻辑。但现在，为了得到同样的结果，我不得不花费更多的时间去写更详细的 Prompt，甚至要反复纠错、重试。当模型变笨，我们被迫从“指挥官”退化成了“监工”，不仅要盯着它的输出，还要不断地修补它留下的逻辑漏洞。不仅模型成本上升，人力成本也上升了。

如果说个人用户只是觉得麻烦，那对于基于 API 构建应用的开发者来说，模型降智简直就是一场灾难。很多开发者在调用模型时，是基于模型之前的表现来设计业务逻辑的。模型突然“降智”，意味着之前跑得通的 Prompt 模板突然失效了，原本稳定的输出格式变得乱七八糟。厂商的每一次“悄悄更新”，都可能导致下游应用的崩溃。开发者不得不投入大量的人力去重新测试、重新适配，甚至为了规避风险，不得不去寻找替代方案。

当用户发现自己花钱买的“顶级模型”在几个月内表现断崖式下跌，那种“被背刺”的感觉会迅速摧毁品牌忠诚度。一旦用户开始怀疑“这个模型是不是又变笨了”，他们就会开始寻找替代品。建立信任很难，但是摧毁它很简单。

用户该如何应对

前面提到过，惩罚不诚信的厂商的最好方法就是抛弃它，我不只一次的听到有人说“我要放弃Authropic了，这家公司把用户当犯罪嫌疑人。” 我最核心的建议是不要成为任何单一模型的“死忠粉”。当断不断，必受其乱。我现在的做法是，根据任务的复杂程度，建立一个“模型梯队”，代码问题首选Opus和Sonnet，如果不行了就换成GLM和Kimi。日常聊天首选Gemini，然后选择豆包。简单任务首选Minimax，其次选择开源模型。此外，可以定时将自己的任务打包一次，以便更换模型时，可以随时搬家。

我第二个建议是，可以制作一个属于自己的模型智力测试集，可以是十个问题或是写一段代码，然后根据反馈的结果评价现在该模型的智力如何。官方文档可能会骗人，但数据不会。

最后我还是想说，不要神化模型，我们最重要的是使用模型的能力，而不是做模型的奴隶。