Hermes Agent 省钱指南:5 个便宜但能打的大模型

Nous Research 的 Hermes Agent 有个好处:你指向哪个模型,它就老老实实跑哪个。换句话说,账单多少是你自己配出来的,不是写死的。

所以选模型这件事,重点不在"哪个最聪明",而在"哪个便宜模型够用",以及"怎么配 Hermes,让它别白白烧 token"。

下面这五个模型都值得在 Hermes 上跑。价格我对照过 Artificial Analysis 和各家官网,每个还配了一条发挥它长处的工作流。

关于 DeepSeek V4 Flash 后面的 "Max" 和 "High": 别误会,它俩不是两个模型,只是两种推理强度(reasoning effort),Artificial Analysis 多测了几档而已。Hermes 里一行配置就能调,具体见工作流 2。


五个模型一览

模型 厂商 上下文 智能指数 价格(每百万 token,输入/输出)
MiMo-V2.5 小米 1M 49 0.14/0.14/0.28
DeepSeek V4 Flash(Max) DeepSeek 1M 47(xhigh effort) 0.098/0.098/0.196
MiMo-V2-Flash(2026 年 2 月版) 小米 256K 41 0.10/0.10/0.30
DeepSeek V4 Flash(High) DeepSeek 1M 46(high effort) 0.098/0.098/0.196
Hy3-preview 腾讯 256K 42 第三方约 0.063/0.063/0.21;腾讯云约 0.18/0.18/0.59

智能指数来自 Artificial Analysis。价格为厂商官网的按 token 计费(DeepSeek V4 Flash 还对缓存输入做了大幅折扣)。第 2、4 行其实是同一个 DeepSeek 模型的两种推理强度,不是两个独立模型。


一次性配置

1. 装 Hermes。 这个一行安装器会处理好所有依赖(Python、Node、ripgrep、ffmpeg、浏览器),克隆仓库并跑完初始化:

curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash

2. 指向一个 provider。 OpenRouter 一把 key 就能访问这全部五个模型,最省事:

hermes model                                   # 交互式:选 OpenRouter,粘贴 key,挑一个模型
# 或者直接设:
hermes config set OPENROUTER_API_KEY sk-or-...

Hermes 文档里有个细节值得知道:密钥放在 ~/.hermes/.env,非密钥配置放在 ~/.hermes/config.yaml,hermes config set 会自动把每个值丢到正确的文件。

3. 凡是要在你机器上跑工具的,都用沙箱隔开:

hermes config set terminal.backend docker

工作流 1:把 MiMo-V2.5 当主力——几毛钱就能跑起来的百万上下文 Agent

最便宜的合理默认:百万 token 上下文,输入只要十四美分。

  • 上下文: 1M
  • 智能指数: 49(Artificial Analysis)
  • 价格: 0.14/0.14/0.28 每百万 token(输入/输出)
  • 厂商: 小米,开放权重(XiaomiMiMo/MiMo-V2.5),多模态(文本 + 图像输入)

想搭一个通用的 Hermes 环境,从它开始就行。智能指数 49,在开源模型里算高的;百万 token 的窗口够 Hermes 在多步工具调用时记住上下文;输入价 $0.14,便宜模型里基本到底了。设成主模型,日常的 Agent 活儿大都能直接干。

# ~/.hermes/config.yaml
model:
  provider: openrouter
  model: xiaomi/mimo-v2.5

注意: Hermes 默认只给 GPT、Gemini、Grok 这类模型自动开工具调用(tool-use enforcement),别的都默认关。要是你发现 MiMo 光说"我想怎么怎么做"却不真的去调工具,就手动打开:

agent:
  tool_use_enforcement: true

→ 经验证的配置(含 CI 证明与现成 prompt)


工作流 2:给 DeepSeek V4 Flash 装个"双速挡"——这才是 "Max" 和 "High" 的真意

一个模型,一条命令,在"便宜快"和"想得深"之间来回切。

  • 上下文: 1M(最大输出 384K)
  • 智能指数: Max effort 下 47,High effort 下 46(Artificial Analysis)
  • 价格: 0.098/0.098/0.196 每百万 token,缓存输入有大幅折扣
  • 厂商: DeepSeek,MoE 架构(总参数 284B / 激活 13B)

排行榜上那两行 "DeepSeek V4 Flash (Max)" 和 "(High)",其实是同一个模型的两种推理强度。Hermes 把这个旋钮直接交给你了,所以简单的活儿用不着付深度思考的钱。

用法:平时开 high,遇到难题再推到 xhigh(就是排行榜那个 "Max"),纯查个东西就降到 none。输出 token 是大头($0.196),而推理强度主要影响输出量,所以这个挡位最能省钱。何况它还是这五个里最便宜的一个,省一点是一点。

# ~/.hermes/config.yaml
model:
  provider: openrouter
  model: deepseek/deepseek-v4-flash
agent:
  reasoning_effort: high     # 选项:none, minimal, low, medium, high, xhigh (max)

运行时还能不重启就按任务调:

/reasoning xhigh     # 难题开到最大
/reasoning none      # 快速查询,关掉思考

注意: xhigh 会让输出 token 成倍涨,别随手开。DeepSeek 对缓存命中的输入收费低得多,所以系统 prompt、仓库上下文这些固定前缀,尽量在多次调用间保持一致,好蹭上缓存折扣。

→ 经验证的配置(含 CI 证明与现成 prompt)


工作流 3:把后台杂活挪到 MiMo-V2-Flash,给主模型省账单

别再花主模型的钱去压缩历史、读图片、抓网页了。

  • 上下文: 256K
  • 智能指数: 41(Artificial Analysis)
  • 价格: 0.10/0.10/0.30 每百万 token
  • 厂商: 小米,MoE 架构(总参数 309B / 激活 15B),约 134 tokens/秒

这里有个多数人没注意的点。Hermes 在你对话的同时,后台还跑着几样活:压缩上下文、处理图片、抽取网页。这几样本来都能各自指定模型,但默认全压在主模型上。把它们挪到 MiMo-V2-Flash 上吧——它是这组里最快也最便宜的,输入 $0.10,干这类"总结型"的活绰绰有余。这样你那个贵的主模型,就能专心做真正需要它的推理。

# ~/.hermes/config.yaml
auxiliary:
  compression:
    provider: openrouter
    model: xiaomi/mimo-v2-flash
  vision:
    provider: openrouter
    model: xiaomi/mimo-v2-flash
  web_extract:
    provider: openrouter
    model: xiaomi/mimo-v2-flash

注意: 主模型该强的还是得强——这里分流的是那些便宜、量又大的后台杂活,不是你的主推理。MiMo-V2-Flash 的 256K 窗口对付这些片段够用。

→ 经验证的配置(含 CI 证明与现成 prompt)


工作流 4:用 Hy3-preview 做一份每日 Agent 简报,自动推到你的聊天应用

一个便宜、真能干 Agent 活的模型,适合那种定好时间自己跑、不用你看管的工具调用任务。

  • 上下文: 256K
  • 智能指数: 推理模式下 42,但 Agent 指数高达 49.7(Artificial Analysis,相当亮眼)
  • 价格: 第三方主机约 0.063/0.063/0.21 每百万 token;腾讯云约 0.18/0.18/0.59——记得固定 provider
  • 厂商: 腾讯,开源(Tencent-Hunyuan/Hy3-preview),MoE 架构(295B / 激活 21B)

Hy3-preview 真正出彩的不是原始智商,是它的 Agent 指数——高达 49.7。这让它很适合干一类循环任务:搜网、拉几个来源、做总结、推给你。配上 Hermes 的 gateway(Telegram、Slack、Discord)和 cron 定时,你就能每天早上自动收到一份简报,跑一次才几分钱。

# ~/.hermes/config.yaml
model:
  provider: openrouter
  model: tencent/hy3-preview
hermes gateway setup     # 连接 Telegram / Slack / Discord,再用 Hermes cron 排好时间

注意: 这个模型在不同主机上价差很大,所以自己锁定好想用的 provider,别让路由随便挑。另外跟 MiMo 一样,Hy3 不在 Hermes 的工具调用白名单里,它要是光说不练,就设 tool_use_enforcement: true。

→ 经验证的配置(含 CI 证明与现成 prompt)


工作流 5:给便宜 Agent 装段记忆,省得它每次都把东西重新读一遍

能记住东西,就不用每次把同样的内容再塞回上下文——对便宜模型来说,这才是省钱的关键。

Mnemosyne(AxDSan/mnemosyne,MIT 协议)是专门给 Hermes Agent 做的本地记忆系统:pip 装一下,一个 SQLite 文件,带向量和全文检索,不依赖任何外部服务。用在便宜模型上好处两头占:Agent 跨天也能保持连贯,还省了每个会话重喂背景信息的钱。

pip install "mnemosyne-memory[all]"
# ~/.hermes/config.yaml
mcp_servers:
  mnemosyne:
    command: mnemosyne
    args: ["mcp"]

注意: 语义检索和记忆整理要靠 embedding 扩展(就是 [all] 顺手装进来的那个);没有它,Mnemosyne 会退回关键词检索,照样能完全离线用。具体的 MCP 启动命令,最好对着仓库的 Hermes 集成文档确认一下,因为 server 入口可能随版本变。

→ 经验证的配置(含 CI 证明与现成 prompt)


如果只试一个,从哪下手?

  • 先上工作流 1,把 MiMo-V2.5 当主模型。它是"便宜又够用"的干净默认,百万窗口加 49 的智能指数,绝大多数 Agent 活儿都能罩住,还不用操心成本。
  • 工作流 2(推理强度挡位)是单项省钱最多的一招。
  • 工作流 3(后台杂活分流)是最容易被忘掉的一个。
  • 把 Hy3-preview 留给定时 Agent 任务,把 Mnemosyne 留给跨天跑的事。