OpenClaw 企业定制 私人订制工作流 优化运维 openclaw记忆优化 问题咨询解决 请加微信交流
想让AI不仅能打字回复,还能听懂你的声音、用语音跟你对话?Voice Mode让Hermes Agent支持实时语音交互——在CLI里用麦克风、在Telegram里发语音消息、甚至在Discord语音频道里对话。
这是Hermes Agent最酷的功能之一。这篇讲清楚Voice Mode是什么、支持哪些场景、怎么配置、以及实际使用体验。
Voice Mode是什么
Voice Mode让Hermes Agent能够:
- 接收你的语音输入,转成文字让AI处理
- 把AI的文字回复转成语音发给你
- 在Discord语音频道里实时对话
核心是TTS(文字转语音)和STT(语音转文字)能力。配置好TTS引擎后,AI的回复可以同时发文字和语音。
支持哪些场景
| 场景 | 语音输入 | 语音回复 | 说明 |
|---|---|---|---|
| CLI麦克风模式 | ✅ | ✅ | 按住空格键说话 |
| Telegram | ✅ | ✅ | 发语音消息给AI |
| Discord文字频道 | ✅ | ✅ | 发语音消息给AI |
| Discord语音频道 | ✅ | ✅ | 实时对话,像真人一样 |
| Slack | ✅ | ✅ | 发语音消息给AI |
CLI麦克风模式
在终端里,按住空格键说话,说完松开,AI处理后直接回复:
# 启动语音模式
/hermes voice
# 或者快捷键
# 按住空格键说话
需要配置TTS引擎支持。常用选择:
- OpenAI TTS
- ElevenLabs
- Coqui TTS
- 系统自带TTS
配置TTS引擎
# 在config.yaml里配置
tts:
provider: "openai" # 或elevenlabs、coqui
model: "tts-1"
voice: "alloy" # OpenAI的语音选项
# ElevenLabs配置
tts:
provider: "elevenlabs"
api_key: "${ELEVENLABS_API_KEY}"
voice: "rachel"
Telegram语音配置
在Telegram里使用语音,需要:
- 配置TTS引擎
- 开启Telegram语音支持
- 设置语音回复偏好
# 开启语音回复
/voice on
# 关闭语音回复
/voice off
# 设置语音模式
/voice tts # 只发语音
/voice join # 加入语音频道(Discord)
发一条语音消息给Bot,AI会自动识别、处理、回复。可以文字、可以语音,看你怎么设置。
Discord语音频道实时对话
这是最酷的功能——让AI加入Discord语音频道,跟你实时对话。
# 让AI加入语音频道
/voice join
# 让AI离开语音频道
/voice leave
配置步骤:
- 在Discord Developer Portal创建Application和Bot
- 给Bot添加Audio Permissions
- 在config.yaml配置Discord语音设置
- 用/voice join让AI加入频道
discord:
token: "${DISCORD_BOT_TOKEN}"
voice:
enabled: true
auto_join: false # 是否自动加入语音频道
AI加入后,你们可以像正常人一样对话。它听到你说的话,实时处理,然后语音回复。全程不需要打字。
语音频道使用场景
- 游戏辅助:AI当游戏助手,边玩边语音指导
- 会议助手:AI参与会议,实时提供信息
- 编程助手:边写代码边问AI问题,语音交流
- 陪伴对话:跟AI进行自然的语音聊天
语音识别配置
语音输入需要STT(Speech-to-Text)引擎:
stt:
provider: "openai" # Whisper
model: "whisper-1"
# 或者用Google STT
stt:
provider: "google"
credentials: "${GOOGLE_STT_CREDENTIALS}"
OpenAI的Whisper是目前最准确的通用STT模型,支持多语言,包括中文。
Voice命令
/voice on # 开启语音回复
/voice off # 关闭语音回复
/voice tts # 只发语音,不发文字
/voice status # 查看语音状态
/voice join # 加入Discord语音频道
/voice leave # 离开Discord语音频道
语音质量优化
选择合适的语音
TTS引擎提供多个语音选项,选择最合适的:
- alloy:中性、清晰,适合大多数场景
- echo:男性声音,低沉
- fable:男性声音,温暖
- onyx:男性声音,深沉
- nova:女性声音,清亮
- shimmer:女性声音,柔和
语言设置
确保STT和TTS的语言设置一致:
# 如果主要用中文
stt:
language: "zh" # Whisper语言代码
tts:
language: "zh" # TTS语言
实际使用体验
CLI语音模式
按住空格键说话,松开后AI处理。适合:
- 打字太慢的口述内容
- 不方便看屏幕时记录信息
- 需要快速获得AI反馈
Telegram语音
在Telegram里发语音给AI,适合移动场景。AI识别语音后处理,可以文字回复也可以语音回复。
Discord语音频道
最沉浸的体验。AI像真人一样在语音频道里跟你对话。适合:
- 需要解放双手的场景
- 更自然的交流方式
- 多人参与的AI辅助
常见问题
Telegram发语音没反应?
检查:STT是否配置、TTS是否配置、Bot是否有语音权限。
Discord语音频道无法加入?
检查:Bot是否有”连接语音频道”权限、是否配置了正确的token、语音频道人数是否已满。
语音延迟高?
选择延迟更低的TTS提供商,本地部署TTS可以进一步降低延迟。
中文识别不准确?
确保STT配置了中文语言,Whisper对中文支持很好。
语音回复太慢?
TTS生成需要时间,可以关闭语音回复只留文字。
与其他功能配合
Voice Mode可以和其他功能配合使用:
- +Memory:语音对话时AI记住你的上下文
- +Skills:语音触发各种Skill
- +Subagent:语音控制并行任务
- +MCP:语音查询外部工具和数据
总结
Voice Mode让Hermes Agent从文字交互升级到语音交互,体验更自然。
核心价值:
- CLI麦克风模式,解放双手
- Telegram/Discord语音消息支持
- Discord语音频道实时对话
- 多TTS引擎可选
- OpenAI Whisper语音识别
- 配合其他功能实现更丰富体验
建议从Telegram语音开始体验,最简单直接。








暂无评论内容