从openclaw和Hermes-agent看通用Agent的现状

截至2026.4.13,OpenClaw 和 Hermes Agent 在 GitHub 分别有 356k、71.1k 个 star,可以分别作为主流代表。

Hermes 的优势

如果只看功能,Hermes 和 OpenClaw 貌似差不多,那我们为什么还要 Hermes 呢?

NousResearch 把 Hermes 定位为能和你一起成长的 AI agent,这个巧妙地比喻其实隐含 Hermes 具有更长时间的记忆力,并且会越来越贴合用户的工作习惯,会越来越好用。

此外, Hermes工程稳定性更强,异常兜底通常更完整,长链路任务成功率更高。可观测性也更好,和 Hermes 对话时,它会告诉它用户现在在干什么,更便于调试。

如此看来,Hermes 隐隐有取代 OpenClaw 的趋势。

一次偶然体验

听到如此震撼的效果,我便本地部署尝试了一下 Hermes。最大的体验感就是可观测性,Hermes 会把正在执行的小步骤汇报给你,对读过的消息更是会给出一个“OK”符号,而 OpenClaw 却只会直接返回结果。

相应的是,Hermes 处理问题的效率却远低于 OpenClaw,我让其处理一个简单的查阅信息任务,Hermes 处理时间超过5分钟,相应的 OpenClaw 只需要30秒。这引起我对 Hermes 性能的思考。

为此我做了实验,模型为Minimax M2.7,在Gaia中的301个任务中,

指标OpenClawHermes
任务数301301
success28641
timeout15251
error09
平均耗时36.432s233.402s

可以见得 Hermes 在未磨合时的稚嫩状态下,处理问题的能力远不及OpenClaw。

为什么会出现这种结果

「可观测性」不是免费的
Hermes 会把过程拆成小步骤给你看,这也意味着更多中间状态、更多日志与更多回合,在强时限任务里会被放大成更长的墙钟时间。OpenClaw 在“快”这个维度上可能更占便宜,但代价是更难复盘失败原因。

冷启动与磨合
Hermes 强调记忆与长期贴合;而一次基准跑分是短会话、强任务、弱个性化的组合。若系统需要几轮交互才能把工具链、偏好、策略调到稳态,这种情况下 Hermes 会吃亏。

我相信,在长期任务下,Hermes 的能力、稳定性、好用性还是会超过 OpenClaw。

不过体验里,有一点是共通的:两边都是在「模型 + 工具 + 网关 + 长链路」上叠出来的系统。OpenClaw 在 GAIA 上更快、更稳,不等于通用 Agent 已经可靠;Hermes 在可观测性上更友好,也不等于失败就更少。把两个具体产品放在一起看,*它们暴露的是同一类工程问题,只是程度与形态不同。

所以下面我不再单独苛责某一家,而是谈「通用 Agent」这一品类眼下普遍缺什么。

现在通用 Agent 的缺点

现在所谓的“通用”多是演示层面的通用:能接很多工具、能跑很长对话,但落地时最先撞上的往往是可靠、安全、成本三件事。

通用 Agent 真正的门槛是“可靠”

个人助手可以偶尔翻车,一旦你把 Agent 当成自动化基础设施,看起来会做和能长期稳定做好就是两码事。

什么叫不可靠

  • 同任务不同结果:提示词、工具、模型任一环节抖动,输出就飘;没有严格回归,很难说「上线了就是对的」。
  • 不可复现:同样条件下,面对同样的问题,甚至很可能输出不同结果,很难认为是稳定的。
  • 长链路放大误差:一步工具超时或返回空,后面要么挂死、要么瞎编;用户往往要人工兜底。
  • 失败不可见:有的系统「快」但难复盘,出了问题只能猜;有的系统步骤多,墙钟时间又长——两种都不等于可靠。
  • 系统未必按预设工作:有时候你预设里面要求系统调用某类工具,但模型依旧按照自己的想法我行我素。

Anthropic CEO Dario Amodei 说:“行业外的人经常会在得知一个事实后感到惊讶甚至不安:我们并不真正理解我们自己创造出来的 AI 系统是如何工作的。

OpenClaw 仓库里曾有用户报告:工具调用异常时 Agent 长时间无响应,甚至描述为单日数小时不可用,恢复依赖删会话、重启网关一类重操作——这类 issue 讨论的就是工程可靠性,与模型不是一回事。

另一类是故障转移没按配置生效:主模型报错时未自动切到 fallback,用户只能手动改配置。维护者后来在 issue 里说明已把未知模型类错误纳入 failover 路径并关闭工单。

Hermes 一侧也有同类问题可举:例如有 issue 提到网关重启时的内存刷写曾可能覆盖用户已确认写入的内容,说明“会记忆”的产品也要过持久化与并发写入这一关。

通用 Agent 若不能做到可靠,再强的单次演示也只是 demo;可靠才是从玩具走向工具的分水岭。

安全是个大麻烦

通用 Agent 的安全麻烦,不是“会不会被黑”这么简单,而是你为了让它有用,必须给它工具权限;权限一旦给出去,风险会从模型层一路传导到文件系统、网络、凭证和外部系统。

我现在更认同一个判断:Agent 的安全问题,核心是“能力与约束不对称”。我们希望它能做复杂任务,但约束机制(沙箱、审计、最小权限、审批流)还没跟上能力增长。

典型风险可以分四类:

  • 工具链注入:提示词注入、网页恶意内容、文档里的“伪指令”会沿着检索/工具调用链放大。
  • 过度授权:为了追求自动化,把文件写入、终端执行、外网请求一股脑打开,结果边界消失。
  • 跨系统污染:一个环节拿到错误或恶意数据,后续 Agent 可能当成事实继续执行,形成连锁错误。
  • 审计缺位:任务看似完成,但没有可追踪的“谁在什么时候用什么工具改了什么”,事故后难复盘。

这也是为什么很多一线实践者会强调“人类操作员”仍然必需。Simon Willison 说“没有熟练的人类操作者,这种‘Agent’基本就是无效的,几乎等于不存在。”。

所以,眼下更现实的做法不是“放权给 Agent”,而是“分层放权”:

  • 默认只读,写操作必须审批;
  • 高风险工具单独隔离(容器/沙箱);
  • 密钥最小权限、短周期轮换;
  • 关键操作全量日志,可回放、可审计;
  • 明确“自动可做”和“必须人工确认”的边界。

换句话说,通用 Agent 不是不能用,而是不能按“全自动员工”去用。谁先把安全问题解决,谁才有资格谈规模化落地。

成本是无底洞

说到成本,往往想到模型成本,但成本不止包含模型成本,不同成本要用不同维度对比。

模型成本

Anthropic 给 Claude Opus 4.6 的 API 标价是 输入 $5 / 百万 token、输出 $25 / 百万 token。

1)日常聊天:假设你一次来回是「约 3000 token 输入 + 800 token 输出」(大概就是几屏字、模型回一小段)。一天聊 30 个来回,模型侧大概也就一两美元以内晃。

2)vibe coding:你把整段代码、报错栈、测试输出反复喂回去,一轮里输入往往先冲到几万 token 很常见。
换句话说:vibe coding相比聊天有量级的成本增长,尤其老让模型重写,模型成本一下就高了。

3)通用 Agent:Agent 会把「计划—工具—观察—再计划」跑成很多轮。你可以把它理解成:把上面 vibe coding 里最费钱的那部分,自动化地多跑几遍。
举个保守的纸面推演:一个任务里模型来回 12 轮,平均每轮 25k 输入 + 6k 输出。单轮约 (0.125 + 0.15 = 0.275) 美元,12 轮就 大约 3.3 美元,还没算工具失败重试、子任务拆分、同一轮里重复读大段上下文。
所以 Agent 的模型成本是轮次 ×(上下文 + 输出长度),体感上是指数级的成本增长。

所以一般来说通用 Agent 都会采用如 minimax 这种便宜的模型,这样虽然模型成本下降了,但是模型性能不好又会导致其他成本上升。

工具成本

通用 Agent 要 常驻网关、可执行环境、日志与监控等。这些是固定成本。单单一项可能几块钱,但多项加在一起也不可小觑。

治理成本

自己玩的话这一项不必考虑。

小团队接入真实数据:要开始谈权限、审计、回滚、谁批准 Agent 发邮件/改库,合规、留痕、事故复盘——这些都不在 API 账单里,但会吃掉大量工程时间。

人力成本

越自动,越要人盯着。

模型能写代码以后,人并没有消失,只是换了一种累法:从“敲键盘”变成“验收、兜底、改提示、处理模型犯蠢后的烂摊子”。
这类成本很难精确到美分,但很好理解**

机会成本

团队如果把一个不适配 Agent 的流程硬自动化,常见结局不是“失败”,而是长期半死不活,偶尔很惊艳,经常要人擦屁股,维护成本把收益吃光。

这么多成本叠加在一起,足以见得成本是无底洞了。更可怕的是很多人没认识到这点,小红书上经常刷到所谓“警惕免费上门安装OpenClaw,收到账单崩溃了”这样的文章。

结构性不成熟

如果把前面的对比压成一句话:今天通用 Agent 的问题,便是“它能不能在真实世界里稳定、可控、可持续地做事”。
前面讲的可靠性、安全性、成本,表面上是三类问题,底层其实是系统还没形成工程闭环。

所以,现阶段通用 Agent 更像“玩具”,而不是“可靠的基础设施”。
这并不代表它没价值,恰恰相反:它已经值得投入,但必须有一个更硬的判断标准。

满足什么条件,我们才可以说通用 Agent 进入了成熟期?

什么时候我们能说通用 Agent 成熟了?

我自己的标准很简单,看它能不能在普通团队里,连续稳定地跑业务。

可以用五条硬标准来判断:

1)可靠性
同类任务的成功率、超时率、回滚率要稳定在可接受区间,如果还经常出现“今天行、明天不行”,就谈不上成熟。

2)可恢复
成熟系统必须具备可观测、可告警、可回滚、可恢复,一次任务失败后,能否在不清空上下文、不人工大规模介入的情况下恢复。

3)安全性
可以让广大用户群体了解到怎么配置是安全的,放权要到什么地步,模型遇到疑似有安全问题的地方要及时呼唤人工介入,稳定运行不会泄露隐私机密,不会对操作员造成损害。

4)低成本
如果 Agent 带来的节省,长期覆盖不了新增维护成本,它就只是昂贵的玩具。

5)可承接
成熟的通用 Agent 不该只在“最懂它的那一个人”手里有效,团队里普通工程师能接手、流程文档能传递、值班体系能承压,才算真正落地。

通用“Agent”仍有很长的路要走。