Hermes Agent 省钱指南：5 个便宜但能打的大模型_综合开发

Nous Research 的 Hermes Agent 有个好处：你指向哪个模型，它就老老实实跑哪个。换句话说，账单多少是你自己配出来的，不是写死的。

所以选模型这件事，重点不在"哪个最聪明"，而在"哪个便宜模型够用"，以及"怎么配 Hermes，让它别白白烧 token"。

下面这五个模型都值得在 Hermes 上跑。价格我对照过 Artificial Analysis 和各家官网，每个还配了一条发挥它长处的工作流。

关于 DeepSeek V4 Flash 后面的 "Max" 和 "High"：别误会，它俩不是两个模型，只是两种推理强度（reasoning effort），Artificial Analysis 多测了几档而已。Hermes 里一行配置就能调，具体见工作流 2。

五个模型一览

模型	厂商	上下文	智能指数	价格（每百万 token，输入/输出）
MiMo-V2.5	小米	1M	49	$0.14 /$ 0.14/0.28
DeepSeek V4 Flash（Max）	DeepSeek	1M	47（xhigh effort）	$0.098 /$ 0.098/0.196
MiMo-V2-Flash（2026 年 2 月版）	小米	256K	41	$0.10 /$ 0.10/0.30
DeepSeek V4 Flash（High）	DeepSeek	1M	46（high effort）	$0.098 /$ 0.098/0.196
Hy3-preview	腾讯	256K	42	第三方约 $0.063 /$ 0.063/0.21；腾讯云约 $0.18 /$ 0.18/0.59

智能指数来自 Artificial Analysis。价格为厂商官网的按 token 计费（DeepSeek V4 Flash 还对缓存输入做了大幅折扣）。第 2、4 行其实是同一个 DeepSeek 模型的两种推理强度，不是两个独立模型。

一次性配置

1. 装 Hermes。这个一行安装器会处理好所有依赖（Python、Node、ripgrep、ffmpeg、浏览器），克隆仓库并跑完初始化：

curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash

2. 指向一个 provider。 OpenRouter 一把 key 就能访问这全部五个模型，最省事：

hermes model                                   # 交互式：选 OpenRouter，粘贴 key，挑一个模型
# 或者直接设：
hermes config set OPENROUTER_API_KEY sk-or-...

Hermes 文档里有个细节值得知道：密钥放在 ~/.hermes/.env，非密钥配置放在 ~/.hermes/config.yaml，hermes config set 会自动把每个值丢到正确的文件。

3. 凡是要在你机器上跑工具的，都用沙箱隔开：

hermes config set terminal.backend docker

工作流 1：把 MiMo-V2.5 当主力——几毛钱就能跑起来的百万上下文 Agent

最便宜的合理默认：百万 token 上下文，输入只要十四美分。

上下文： 1M
智能指数： 49（Artificial Analysis）
价格： $0.14 /$ 0.14/0.28 每百万 token（输入/输出）
厂商：小米，开放权重（XiaomiMiMo/MiMo-V2.5），多模态（文本 + 图像输入）

想搭一个通用的 Hermes 环境，从它开始就行。智能指数 49，在开源模型里算高的；百万 token 的窗口够 Hermes 在多步工具调用时记住上下文；输入价 $0.14，便宜模型里基本到底了。设成主模型，日常的 Agent 活儿大都能直接干。

# ~/.hermes/config.yaml
model:
  provider: openrouter
  model: xiaomi/mimo-v2.5

注意： Hermes 默认只给 GPT、Gemini、Grok 这类模型自动开工具调用（tool-use enforcement），别的都默认关。要是你发现 MiMo 光说"我想怎么怎么做"却不真的去调工具，就手动打开：

agent:
  tool_use_enforcement: true

→ 经验证的配置（含 CI 证明与现成 prompt）

工作流 2：给 DeepSeek V4 Flash 装个"双速挡"——这才是 "Max" 和 "High" 的真意

一个模型，一条命令，在"便宜快"和"想得深"之间来回切。

上下文： 1M（最大输出 384K）
智能指数： Max effort 下 47，High effort 下 46（Artificial Analysis）
价格： $0.098 /$ 0.098/0.196 每百万 token，缓存输入有大幅折扣
厂商： DeepSeek，MoE 架构（总参数 284B / 激活 13B）

排行榜上那两行 "DeepSeek V4 Flash (Max)" 和 "(High)"，其实是同一个模型的两种推理强度。Hermes 把这个旋钮直接交给你了，所以简单的活儿用不着付深度思考的钱。

用法：平时开 high，遇到难题再推到 xhigh（就是排行榜那个 "Max"），纯查个东西就降到 none。输出 token 是大头（$0.196），而推理强度主要影响输出量，所以这个挡位最能省钱。何况它还是这五个里最便宜的一个，省一点是一点。

# ~/.hermes/config.yaml
model:
  provider: openrouter
  model: deepseek/deepseek-v4-flash
agent:
  reasoning_effort: high     # 选项：none, minimal, low, medium, high, xhigh (max)

运行时还能不重启就按任务调：

/reasoning xhigh     # 难题开到最大
/reasoning none      # 快速查询，关掉思考

注意： xhigh 会让输出 token 成倍涨，别随手开。DeepSeek 对缓存命中的输入收费低得多，所以系统 prompt、仓库上下文这些固定前缀，尽量在多次调用间保持一致，好蹭上缓存折扣。

→ 经验证的配置（含 CI 证明与现成 prompt）

工作流 3：把后台杂活挪到 MiMo-V2-Flash，给主模型省账单

别再花主模型的钱去压缩历史、读图片、抓网页了。

上下文： 256K
智能指数： 41（Artificial Analysis）
价格： $0.10 /$ 0.10/0.30 每百万 token
厂商：小米，MoE 架构（总参数 309B / 激活 15B），约 134 tokens/秒

这里有个多数人没注意的点。Hermes 在你对话的同时，后台还跑着几样活：压缩上下文、处理图片、抽取网页。这几样本来都能各自指定模型，但默认全压在主模型上。把它们挪到 MiMo-V2-Flash 上吧——它是这组里最快也最便宜的，输入 $0.10，干这类"总结型"的活绰绰有余。这样你那个贵的主模型，就能专心做真正需要它的推理。

# ~/.hermes/config.yaml
auxiliary:
  compression:
    provider: openrouter
    model: xiaomi/mimo-v2-flash
  vision:
    provider: openrouter
    model: xiaomi/mimo-v2-flash
  web_extract:
    provider: openrouter
    model: xiaomi/mimo-v2-flash

注意：主模型该强的还是得强——这里分流的是那些便宜、量又大的后台杂活，不是你的主推理。MiMo-V2-Flash 的 256K 窗口对付这些片段够用。

→ 经验证的配置（含 CI 证明与现成 prompt）

工作流 4：用 Hy3-preview 做一份每日 Agent 简报，自动推到你的聊天应用

一个便宜、真能干 Agent 活的模型，适合那种定好时间自己跑、不用你看管的工具调用任务。

上下文： 256K
智能指数：推理模式下 42，但 Agent 指数高达 49.7（Artificial Analysis，相当亮眼）
价格：第三方主机约 $0.063 /$ 0.063/0.21 每百万 token；腾讯云约 $0.18 /$ 0.18/0.59——记得固定 provider
厂商：腾讯，开源（Tencent-Hunyuan/Hy3-preview），MoE 架构（295B / 激活 21B）

Hy3-preview 真正出彩的不是原始智商，是它的 Agent 指数——高达 49.7。这让它很适合干一类循环任务：搜网、拉几个来源、做总结、推给你。配上 Hermes 的 gateway（Telegram、Slack、Discord）和 cron 定时，你就能每天早上自动收到一份简报，跑一次才几分钱。

# ~/.hermes/config.yaml
model:
  provider: openrouter
  model: tencent/hy3-preview

hermes gateway setup     # 连接 Telegram / Slack / Discord，再用 Hermes cron 排好时间

注意：这个模型在不同主机上价差很大，所以自己锁定好想用的 provider，别让路由随便挑。另外跟 MiMo 一样，Hy3 不在 Hermes 的工具调用白名单里，它要是光说不练，就设 tool_use_enforcement: true。

→ 经验证的配置（含 CI 证明与现成 prompt）

工作流 5：给便宜 Agent 装段记忆，省得它每次都把东西重新读一遍

能记住东西，就不用每次把同样的内容再塞回上下文——对便宜模型来说，这才是省钱的关键。

Mnemosyne（AxDSan/mnemosyne，MIT 协议）是专门给 Hermes Agent 做的本地记忆系统：pip 装一下，一个 SQLite 文件，带向量和全文检索，不依赖任何外部服务。用在便宜模型上好处两头占：Agent 跨天也能保持连贯，还省了每个会话重喂背景信息的钱。

pip install "mnemosyne-memory[all]"

# ~/.hermes/config.yaml
mcp_servers:
  mnemosyne:
    command: mnemosyne
    args: ["mcp"]

注意：语义检索和记忆整理要靠 embedding 扩展（就是 [all] 顺手装进来的那个）；没有它，Mnemosyne 会退回关键词检索，照样能完全离线用。具体的 MCP 启动命令，最好对着仓库的 Hermes 集成文档确认一下，因为 server 入口可能随版本变。

→ 经验证的配置（含 CI 证明与现成 prompt）

如果只试一个，从哪下手？

先上工作流 1，把 MiMo-V2.5 当主模型。它是"便宜又够用"的干净默认，百万窗口加 49 的智能指数，绝大多数 Agent 活儿都能罩住，还不用操心成本。
工作流 2（推理强度挡位）是单项省钱最多的一招。
工作流 3（后台杂活分流）是最容易被忘掉的一个。
把 Hy3-preview 留给定时 Agent 任务，把 Mnemosyne 留给跨天跑的事。

Hermes Agent 省钱指南：5 个便宜但能打的大模型

五个模型一览

一次性配置

工作流 1：把 MiMo-V2.5 当主力——几毛钱就能跑起来的百万上下文 Agent

工作流 2：给 DeepSeek V4 Flash 装个"双速挡"——这才是 "Max" 和 "High" 的真意

工作流 3：把后台杂活挪到 MiMo-V2-Flash，给主模型省账单

工作流 4：用 Hy3-preview 做一份每日 Agent 简报，自动推到你的聊天应用

工作流 5：给便宜 Agent 装段记忆，省得它每次都把东西重新读一遍

如果只试一个，从哪下手？

相关推荐