我用 Fable 的一周
一句话总结:我试了 Fable(Mythos)一周,它跟以前用过的任何模型都不一样。无论是感觉还是价格,都像是下一代产品。但它也有些让人头疼的地方。
好的部分
Workflow 模式是最突出的。我让它做一个「完整代码审查」,然后看着它同时启动了几百个 agent。基本上我应用里的每个文件,它都分给了一个单独的 agent 去处理。它找出了 bug、边界情况、缺失的文档,还有 UX 改进建议——遍布整个应用。同样的提示我给其他模型用过,它们找出的问题远没有这么多。
它的自主性也很夸张。比任何之前的 Claude 或 GPT 模型都更愿意自己跑上几个小时,不去打扰你。最重要的是,我敢信任它完成我设定的目标。它很乐意烧掉大量 token 去达成目标。每次我启动 Fable,都感觉它是奔着解决一个巨大项目去的。
给 Fable 分配大规模、复杂的任务,我比以往任何时候都更有信心。我想不出什么问题会让它卡住。它看起来真的很渴望接手这些大任务。
这也是它最突出的地方——长周期任务。很难想象它的时间跨度极限在哪。
但它不是神。有些东西需要改进。
让人头疼的地方
它太啰嗦了。解释很快就钻到细节里出不来。我更新了 claude.md 想让它收敛一点,但还是不够。我不得不反复让它用更简单的方式解释。不只是啰嗦的问题,还有信息密度——它的解释方式让我觉得自己很蠢。
关于信息密度多说一句——我之前没意识到这有多重要。在固定 token 预算内传递的信息越多,模型就越能在更低的成本下表现得「更聪明」。这也让我觉得,未来 agent 可能会发明自己的超高密度语言。
Fable 特别喜欢问澄清问题。一个提示会变成:先问问题,然后总结我的回答,然后让我确认总结,然后写规范,让我确认规范,然后确认 agent 的执行方式(并行还是串行),最后才开始构建。我想要的是它自己帮我做这些决定。Anthropic 告诉我这个问题会在更新的系统提示中修复。
它感觉很慢。比之前的 Opus 模型甚至 GPT 都慢。启动慢,解决问题也慢。这跟我喜欢 Opus 的地方完全相反。Opus 在两个方面一直让我觉得比 GPT-5.5 快:原始 token 生成速度,以及它找到更短解决路径的能力。Fable 在这两点上都不同。即使是简单任务它也会慢慢来。我会看着计时器往上走,输出 token 却一动不动,五分钟过去了只用了几个千 token。它想做到尽可能全面,而这需要时间。
结论
实用建议:把 effort level 调低,比你以为需要的还要低。即使是中等设置它也想得非常多。低 effort 下它依然非常强大,而且还是会想一阵子。
这些问题都能解决——通过模型优化和增加计算容量来提升速度,通过更多微调/RL 和系统提示调整来改善啰嗦和过度谨慎的问题。
我的判断:MYTHOS 非常强大,我还在摸索怎么把它的能力榨到最大。它感觉像是只想要我最难的任务,其他的都不够好。这是一个全新训练周期的第一次亮相,它已经是我用过的最强的模型了。
这点我一直忘不掉。