Nous Research 的 Hermes Agent 有个好处:你指向哪个模型,它就老老实实跑哪个。换句话说,账单多少是你自己配出来的,不是写死的。
所以选模型这件事,重点不在"哪个最聪明",而在"哪个便宜模型够用",以及"怎么配 Hermes,让它别白白烧 token"。
下面这五个模型都值得在 Hermes 上跑。价格我对照过 Artificial Analysis 和各家官网,每个还配了一条发挥它长处的工作流。
关于 DeepSeek V4 Flash 后面的 "Max" 和 "High": 别误会,它俩不是两个模型,只是两种推理强度(reasoning effort),Artificial Analysis 多测了几档而已。Hermes 里一行配置就能调,具体见工作流 2。
五个模型一览
| 模型 | 厂商 | 上下文 | 智能指数 | 价格(每百万 token,输入/输出) |
|---|---|---|---|---|
| MiMo-V2.5 | 小米 | 1M | 49 | 0.14/0.28 |
| DeepSeek V4 Flash(Max) | DeepSeek | 1M | 47(xhigh effort) | 0.098/0.196 |
| MiMo-V2-Flash(2026 年 2 月版) | 小米 | 256K | 41 | 0.10/0.30 |
| DeepSeek V4 Flash(High) | DeepSeek | 1M | 46(high effort) | 0.098/0.196 |
| Hy3-preview | 腾讯 | 256K | 42 | 第三方约 0.063/0.21;腾讯云约 0.18/0.59 |
智能指数来自 Artificial Analysis。价格为厂商官网的按 token 计费(DeepSeek V4 Flash 还对缓存输入做了大幅折扣)。第 2、4 行其实是同一个 DeepSeek 模型的两种推理强度,不是两个独立模型。
一次性配置
1. 装 Hermes。 这个一行安装器会处理好所有依赖(Python、Node、ripgrep、ffmpeg、浏览器),克隆仓库并跑完初始化:
curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash
2. 指向一个 provider。 OpenRouter 一把 key 就能访问这全部五个模型,最省事:
hermes model # 交互式:选 OpenRouter,粘贴 key,挑一个模型 # 或者直接设: hermes config set OPENROUTER_API_KEY sk-or-...
Hermes 文档里有个细节值得知道:密钥放在 ~/.hermes/.env,非密钥配置放在 ~/.hermes/config.yaml,hermes config set 会自动把每个值丢到正确的文件。
3. 凡是要在你机器上跑工具的,都用沙箱隔开:
hermes config set terminal.backend docker
工作流 1:把 MiMo-V2.5 当主力——几毛钱就能跑起来的百万上下文 Agent
最便宜的合理默认:百万 token 上下文,输入只要十四美分。
- 上下文: 1M
- 智能指数: 49(Artificial Analysis)
- 价格: 0.14/0.28 每百万 token(输入/输出)
- 厂商: 小米,开放权重(XiaomiMiMo/MiMo-V2.5),多模态(文本 + 图像输入)
想搭一个通用的 Hermes 环境,从它开始就行。智能指数 49,在开源模型里算高的;百万 token 的窗口够 Hermes 在多步工具调用时记住上下文;输入价 $0.14,便宜模型里基本到底了。设成主模型,日常的 Agent 活儿大都能直接干。
# ~/.hermes/config.yaml model: provider: openrouter model: xiaomi/mimo-v2.5
注意: Hermes 默认只给 GPT、Gemini、Grok 这类模型自动开工具调用(tool-use enforcement),别的都默认关。要是你发现 MiMo 光说"我想怎么怎么做"却不真的去调工具,就手动打开:
agent: tool_use_enforcement: true
→ 经验证的配置(含 CI 证明与现成 prompt)
工作流 2:给 DeepSeek V4 Flash 装个"双速挡"——这才是 "Max" 和 "High" 的真意
一个模型,一条命令,在"便宜快"和"想得深"之间来回切。
- 上下文: 1M(最大输出 384K)
- 智能指数: Max effort 下 47,High effort 下 46(Artificial Analysis)
- 价格: 0.098/0.196 每百万 token,缓存输入有大幅折扣
- 厂商: DeepSeek,MoE 架构(总参数 284B / 激活 13B)
排行榜上那两行 "DeepSeek V4 Flash (Max)" 和 "(High)",其实是同一个模型的两种推理强度。Hermes 把这个旋钮直接交给你了,所以简单的活儿用不着付深度思考的钱。
用法:平时开 high,遇到难题再推到 xhigh(就是排行榜那个 "Max"),纯查个东西就降到 none。输出 token 是大头($0.196),而推理强度主要影响输出量,所以这个挡位最能省钱。何况它还是这五个里最便宜的一个,省一点是一点。
# ~/.hermes/config.yaml model: provider: openrouter model: deepseek/deepseek-v4-flash agent: reasoning_effort: high # 选项:none, minimal, low, medium, high, xhigh (max)
运行时还能不重启就按任务调:
/reasoning xhigh # 难题开到最大 /reasoning none # 快速查询,关掉思考
注意: xhigh 会让输出 token 成倍涨,别随手开。DeepSeek 对缓存命中的输入收费低得多,所以系统 prompt、仓库上下文这些固定前缀,尽量在多次调用间保持一致,好蹭上缓存折扣。
→ 经验证的配置(含 CI 证明与现成 prompt)
工作流 3:把后台杂活挪到 MiMo-V2-Flash,给主模型省账单
别再花主模型的钱去压缩历史、读图片、抓网页了。
- 上下文: 256K
- 智能指数: 41(Artificial Analysis)
- 价格: 0.10/0.30 每百万 token
- 厂商: 小米,MoE 架构(总参数 309B / 激活 15B),约 134 tokens/秒
这里有个多数人没注意的点。Hermes 在你对话的同时,后台还跑着几样活:压缩上下文、处理图片、抽取网页。这几样本来都能各自指定模型,但默认全压在主模型上。把它们挪到 MiMo-V2-Flash 上吧——它是这组里最快也最便宜的,输入 $0.10,干这类"总结型"的活绰绰有余。这样你那个贵的主模型,就能专心做真正需要它的推理。
# ~/.hermes/config.yaml
auxiliary:
compression:
provider: openrouter
model: xiaomi/mimo-v2-flash
vision:
provider: openrouter
model: xiaomi/mimo-v2-flash
web_extract:
provider: openrouter
model: xiaomi/mimo-v2-flash
注意: 主模型该强的还是得强——这里分流的是那些便宜、量又大的后台杂活,不是你的主推理。MiMo-V2-Flash 的 256K 窗口对付这些片段够用。
→ 经验证的配置(含 CI 证明与现成 prompt)
工作流 4:用 Hy3-preview 做一份每日 Agent 简报,自动推到你的聊天应用
一个便宜、真能干 Agent 活的模型,适合那种定好时间自己跑、不用你看管的工具调用任务。
- 上下文: 256K
- 智能指数: 推理模式下 42,但 Agent 指数高达 49.7(Artificial Analysis,相当亮眼)
- 价格: 第三方主机约 0.063/0.21 每百万 token;腾讯云约 0.18/0.59——记得固定 provider
- 厂商: 腾讯,开源(Tencent-Hunyuan/Hy3-preview),MoE 架构(295B / 激活 21B)
Hy3-preview 真正出彩的不是原始智商,是它的 Agent 指数——高达 49.7。这让它很适合干一类循环任务:搜网、拉几个来源、做总结、推给你。配上 Hermes 的 gateway(Telegram、Slack、Discord)和 cron 定时,你就能每天早上自动收到一份简报,跑一次才几分钱。
# ~/.hermes/config.yaml model: provider: openrouter model: tencent/hy3-preview
hermes gateway setup # 连接 Telegram / Slack / Discord,再用 Hermes cron 排好时间
注意: 这个模型在不同主机上价差很大,所以自己锁定好想用的 provider,别让路由随便挑。另外跟 MiMo 一样,Hy3 不在 Hermes 的工具调用白名单里,它要是光说不练,就设 tool_use_enforcement: true。
→ 经验证的配置(含 CI 证明与现成 prompt)
工作流 5:给便宜 Agent 装段记忆,省得它每次都把东西重新读一遍
能记住东西,就不用每次把同样的内容再塞回上下文——对便宜模型来说,这才是省钱的关键。
Mnemosyne(AxDSan/mnemosyne,MIT 协议)是专门给 Hermes Agent 做的本地记忆系统:pip 装一下,一个 SQLite 文件,带向量和全文检索,不依赖任何外部服务。用在便宜模型上好处两头占:Agent 跨天也能保持连贯,还省了每个会话重喂背景信息的钱。
pip install "mnemosyne-memory[all]"
# ~/.hermes/config.yaml
mcp_servers:
mnemosyne:
command: mnemosyne
args: ["mcp"]
注意: 语义检索和记忆整理要靠 embedding 扩展(就是 [all] 顺手装进来的那个);没有它,Mnemosyne 会退回关键词检索,照样能完全离线用。具体的 MCP 启动命令,最好对着仓库的 Hermes 集成文档确认一下,因为 server 入口可能随版本变。
→ 经验证的配置(含 CI 证明与现成 prompt)
如果只试一个,从哪下手?
- 先上工作流 1,把 MiMo-V2.5 当主模型。它是"便宜又够用"的干净默认,百万窗口加 49 的智能指数,绝大多数 Agent 活儿都能罩住,还不用操心成本。
- 工作流 2(推理强度挡位)是单项省钱最多的一招。
- 工作流 3(后台杂活分流)是最容易被忘掉的一个。
- 把 Hy3-preview 留给定时 Agent 任务,把 Mnemosyne 留给跨天跑的事。