为什么你觉得LLM变笨了

社区的集体焦虑

近日,Anthropic(尤其是 Claude Code Opus 4.6)被大量用户抱怨"变笨"、"降智"。事情是不是真降了权重,官方和用户在各说各话。但可以确定焦虑已经扩散成跨平台的集体情绪。

GitHub 上,anthropics/claude-code 仓库里长串 issue 在讨论"质量回退"。例如 AMD 相关人士发过一份基于大量会话文件的分析,引发连锁讨论(见 Issue #42796);同期还有用户报告 Opus 4.6 响应变慢、质量下滑(如 Issue #48167)。当用户开始用数据吵架,说明问题已经从体感升级成可定量事件了。

Redditr/ClaudeCoder/claude 里,同类帖子更碎、更口语,但情绪更直白,有人吐槽"这几天 Opus 像没睡醒",有人怀疑"新模型要上了所以老模型被削算力",群众的眼光是雪亮的,一群人同时觉得工具链不对劲,说明 Opus 出问题了。

英文科技媒体也下场概括过这波争议,标题里直接用了"nerfing"这种玩家梗,把 GitHub、X、Reddit 上的抱怨串在一起报道(见 VentureBeat 相关报道)。

中文舆论场里,36氪、网易科技等做了长文综述,把 GitHub 上的定量分析和海外讨论等争议打包讲给国内读者(例如 36氪:Claude 故意降智?网易科技:最强编程 AI 被指降智)。小红书、微博、即刻这类平台上更多是短帖、截图和梗图,你在站内搜「Claude 降智」「Opus 变笨」,能看到大量相似讨论。

我想写的不是"Anthropic 一定动手脚了",当社区在不同平台用不同语言重复同一套感受,这件事本身就值得单独拿出来讲。我们从厂商视角拆解,他们到底可能在调什么。

为什么厂商要“降智”

很多人会问:厂商是不是疯了?为什么要主动把好好的模型改坏?

其实站在厂商的立场看,这背后可能有以下原因:

  1. 成本 最直接的原因,就是钱。 你可能觉得,我付了订阅费,厂商就应该给我最好的。但你要知道,运行像 Opus 这样级别的模型,推理成本是极其恐怖的。每一个 Token 的生成,背后都是成千上万张 H100 显卡在疯狂运转。 为了让业务可持续,厂商必须优化推理成本。有时候,他们会通过“量化”给模型“瘦身”,降低精度以换取更低的算力消耗。虽然理论上性能损失很小,但反映在复杂任务上,模型可能就没那么“聪明”了。

  2. 安全与合规 为了避免模型输出有害内容、法律风险,厂商会给模型套上Guardrails。通过 RLHF,厂商会不断教导模型:“不要回答这个问题”,这也可能导致模型变笨。也叫“对齐税”(Alignment Tax)问题。简单来说,就是为了让模型“变乖”、符合人类价值观,你不得不支付的性能代价。研究人员发现,模型中负责“逻辑推理”的神经元和负责“合规判断”的神经元,在物理空间上往往是高度重叠的。当你通过 RLHF 强行抑制那些可能产生“危险”想法的神经元时,很可能连带着把那些负责复杂逻辑推理的神经元也给“误伤”了。

为了防止模型教人做坏事,厂商可能顺手把模型处理复杂问题的逻辑能力也给“阉割”了。现在的模型,有时候表现得像一个过度谨慎的保姆,为了不出错,宁愿什么都不说,或者只说正确的废话。这种为了安全而牺牲智能的“税”,最终全由我们这些用户来买单。

  1. “模型漂移” AI 模型不是静态的,厂商会不断地对模型进行微调以修复 Bug 或增加新功能。但 AI 的训练是一个“黑盒”,当你为了优化 A 能力(比如让它更听话)去调整模型时,往往会无意中削弱了 B 能力(比如它的逻辑推理能力)。厂商在更新模型时,往往很难保证在提升某一方面体验的同时,不损害其他方面的性能。

  2. 人为因素 这是最可能的原因。

为了宣传即将推出的新模型,或者商业上的一些合作关系,甚至是为了强化其他模型,可能会出现人为减少算力,手动降智的行为。这种情况不亚于对用户的背叛。

谁在为“降智”买单

首当其冲的是会员用户,以前,我写代码或者做深度分析,Opus 能给我那种“心有灵犀”的反馈,我只需要给一个模糊的指令,它就能补全逻辑。但现在,为了得到同样的结果,我不得不花费更多的时间去写更详细的 Prompt,甚至要反复纠错、重试。当模型变笨,我们被迫从“指挥官”退化成了“监工”,不仅要盯着它的输出,还要不断地修补它留下的逻辑漏洞。不仅模型成本上升,人力成本也上升了。

如果说个人用户只是觉得麻烦,那对于基于 API 构建应用的开发者来说,模型降智简直就是一场灾难。 很多开发者在调用模型时,是基于模型之前的表现来设计业务逻辑的。模型突然“降智”,意味着之前跑得通的 Prompt 模板突然失效了,原本稳定的输出格式变得乱七八糟。 厂商的每一次“悄悄更新”,都可能导致下游应用的崩溃。开发者不得不投入大量的人力去重新测试、重新适配,甚至为了规避风险,不得不去寻找替代方案。

当用户发现自己花钱买的“顶级模型”在几个月内表现断崖式下跌,那种“被背刺”的感觉会迅速摧毁品牌忠诚度。一旦用户开始怀疑“这个模型是不是又变笨了”,他们就会开始寻找替代品。建立信任很难,但是摧毁它很简单。

用户该如何应对

前面提到过,惩罚不诚信的厂商的最好方法就是抛弃它,我不只一次的听到有人说“我要放弃Authropic了,这家公司把用户当犯罪嫌疑人。” 我最核心的建议是不要成为任何单一模型的“死忠粉”。当断不断,必受其乱。我现在的做法是,根据任务的复杂程度,建立一个“模型梯队”,代码问题首选Opus和Sonnet,如果不行了就换成GLM和Kimi。日常聊天首选Gemini,然后选择豆包。简单任务首选Minimax,其次选择开源模型。此外,可以定时将自己的任务打包一次,以便更换模型时,可以随时搬家。

我第二个建议是,可以制作一个属于自己的模型智力测试集,可以是十个问题或是写一段代码,然后根据反馈的结果评价现在该模型的智力如何。官方文档可能会骗人,但数据不会。

最后我还是想说,不要神化模型,我们最重要的是使用模型的能力,而不是做模型的奴隶。