维护咨询 大模型部署 问题解决 技能定制 大模型训练
用AI最怕什么?账单爆炸。
每次对话都会消耗Token,模型越好越贵。一个中度使用的用户,每个月Token费用可能轻松破几百块。
本文讲清楚怎么控制Hermes的Token消耗,不影响使用效果的前提下,把费用压到最低。
## 了解Token是怎么计费的
Token计费规则:
输入Token:模型每消耗1M Token的价格(如$3-15不等)
输出Token:模型每消耗1M Token的价格(通常是输入的2-3倍)
总费用 = (输入Token数 + 输出Token数) × 单价
不同模型价格差异巨大:
Claude 3.5 Sonnet: 输入$3/1M,输出$15/1M
GPT-4o: 输入$5/1M,输出$15/1M
Claude 3 Haiku: 输入$0.25/1M,输出$1.25/1M
DeepSeek V3: 输入$0.1/1M,输出$0.1/1M
选对模型能省大钱。
—
## 技巧一:选对话度的模型
不是每个任务都需要最贵的模型:
需要深度推理、复杂分析 → Claude 3.5 Sonnet / GPT-4o
日常对话、简单任务 → Claude 3 Haiku / GPT-4o-mini
批量数据处理、长文本摘要 → DeepSeek V3 / Qwen
Hermes可以在不同任务自动切换模型,也可以为不同Profile设置不同模型:
# ~/.hermes/profiles/quick/config.yaml
model:
provider: openrouter
model: anthropic/claude-3-haiku
# ~/.hermes/profiles/deep/config.yaml
model:
provider: openrouter
model: anthropic/claude-3-5-sonnet
—
## 技巧二:减少上下文体积
上下文越大,费用越高。减少上下文的方法:
清理不必要的会话历史
/clear # 清空当前会话,从头开始
/session compact # 压缩当前会话,保留关键信息
用Context Files代替对话传递
❌ 不要这样做:
用户:帮我按照这个规范写代码:1.使用类型注解 2.函数不超过50行 3.注释用中文
✓ 这样做:
用户:帮我按照项目里的CODING_STANDARD.md写代码
前者每次对话都要重复发送这些规范,后者只读一次文件。
—
## 技巧三:使用Prompt Caching
Hermes支持Anthropic的Prompt Caching机制,把不变的上下文(Skills、长的系统提示词)缓存起来,减少重复传输。
自动缓存的内容:
– Skills索引和元数据
– 工具定义
– 长的Context Files(如AGENTS.md)
需要手动优化的:
把长的系统级内容写成独立文件,而不是每次都塞进对话:
# 好的做法
AGENTS.md写清楚项目背景(一次写入,多次复用)
# 差的做法
每次对话开头都说"这个项目是XXX,用YYY语言,ZZZ是特殊要求"
—
## 技巧四:控制输出长度
Hermes默认可能输出很长,很多场景不需要那么多内容。
在任务描述里限定输出:
帮我写一个排序算法,用最简洁的代码,不要解释
用系统提示词设置默认输出风格:
在SOUL.md里加一行:
# 输出风格
除非用户明确要求详细解释,否则:
- 代码:只给核心代码,不给完整注释
- 回复:简洁直接,不超过3段
- 分析:直接给结论,不重复题目背景
—
## 技巧五:批量处理减少API调用
多个相似任务合并成一次对话:
❌ 差的做法:
用户:帮我翻译第一段
AI:...
用户:帮我翻译第二段
AI:...
用户:帮我翻译第三段
AI:...
✓ 好的做法:
用户:帮我翻译这三段话,保持格式一致
一次API调用搞定三件事。
—
## 技巧六:用OpenRouter聚合多模型
OpenRouter是一个模型聚合平台,可以用统一API访问几十个模型,还能自动选最便宜的。
配置OpenRouter:
# config.yaml
provider: openrouter
openrouter_api_key: "sk-or-..."
# 自动选择最便宜的可用模型
model: auto
# 或者指定特定模型
model: anthropic/claude-3-haiku
OpenRouter的优势:
– 一个API Key访问所有主流模型
– 自动路由到最便宜的选项
– 支持模型对比和价格排序
—
## 技巧七:监控和预算
设置每月预算上限,防止意外超支:
# config.yaml
billing:
monthly_limit: 50 # 每月最多50美元
alert_threshold: 0.8 # 花费超过80%时提醒
查看当前使用量:
/stats
# 输出:
# 本月费用:$23.45 / $50.00
# 已用Token:1.2M
# 当前模型:Claude 3.5 Sonnet
—
## 常见问题
Q:Token和字符是什么关系?
A:英文大约1 Token = 4个字符,中文大约1 Token = 1-2个汉字。精确换算可以用tiktoken库计算。
Q:压缩上下文会影响AI表现吗?
A:合理的压缩不影响。压缩掉的是重复信息和无关紧要的细节。关键决策、项目背景、AI人格设定不会被压缩。
Q:最便宜的模型效果够用吗?
A:对于简单任务(翻译、摘要、格式转换),Haiku级别的模型效果已经很好。只有复杂推理、创意写作需要 Sonnet/GPT-4o 级别。
—
## 相关文章








暂无评论内容