OpenClaw 企业定制 私人订制工作流 优化运维 openclaw记忆优化 问题咨询解决 请加微信交流
Voice Mode需要TTS(文字转语音)和STT(语音转文字)引擎才能工作。配置好这两个引擎后,AI不仅能打字回复,还能用语音跟你说话。这篇讲清楚TTS和STT引擎有哪些、如何配置、以及实际使用体验。
TTS引擎配置
TTS负责把AI的文字回复转成语音。
OpenAI TTS
tts:
provider: "openai"
model: "tts-1"
voice: "alloy"
api_key: "${OPENAI_API_KEY}"
OpenAI TTS语音选项:
- alloy:中性、清晰
- echo:男性、低沉
- fable:男性、温暖
- onyx:男性、深沉
- nova:女性、清亮
- shimmer:女性、柔和
ElevenLabs TTS
tts:
provider: "elevenlabs"
api_key: "${ELEVENLABS_API_KEY}"
voice: "rachel"
model: "eleven_multilingual_v2"
ElevenLabs是专业TTS服务,中文支持好,声音自然。
Coqui TTS(开源)
tts:
provider: "coqui"
model: "xtts_v2"
device: "cuda"Coqui是开源TTS,可以本地部署,不需要API Key。
系统TTS
tts:
provider: "system"
voice: "Microsoft Huihui"使用系统自带的TTS,Windows用SAPI5,macOS用AVSpeechSynthesizer。
STT引擎配置
STT负责把你的语音转成文字。
OpenAI Whisper
stt:
provider: "openai"
model: "whisper-1"
api_key: "${OPENAI_API_KEY}"Whisper是最准确的通用STT,支持中文。
DeepGram
stt:
provider: "deepgram"
api_key: "${DEEPGRAM_API_KEY}"
model: "nova-2"DeepGram延迟低,实时性好。
Google STT
stt:
provider: "google"
credentials: "${GOOGLE_STT_CREDENTIALS}"
language: "zh-CN"开源Whisper本地部署
stt:
provider: "whisper-local"
model: "large-v3"
device: "cuda"本地部署Whisper,不需要API Key,隐私性好。
完整Voice配置示例
voice:
enabled: truetts:
provider: "elevenlabs"
api_key: "${ELEVENLABS_API_KEY}"
voice: "rachel"
model: "eleven_multilingual_v2"stt:
provider: "openai"
model: "whisper-1"
api_key: "${OPENAI_API_KEY}"
language: "auto"Telegram语音配置
telegram:
bot_token: "${TELEGRAM_BOT_TOKEN}"
voice_reply: true
voice_transcribe: trueDiscord语音配置
discord:
bot_token: "${DISCORD_BOT_TOKEN}"
voice:
enabled: true
auto_join: false
deafen: true语音命令
/voice on # 开启语音回复
/voice off # 关闭语音回复
/voice tts # 只发语音,不发文字
/voice status # 查看语音状态
/voice join # 加入Discord语音频道
/voice leave # 离开语音频道语音质量优化
选择合适语音
不同TTS引擎有不同风格,选择最适合你的:
- 正式场合:选声音清晰、语速适中的
- 日常对话:选自然、亲切的
- 中文场景:确保TTS支持中文
语言一致性
# 确保STT和TTS语言一致
stt:
language: "zh" # Whisper语言代码tts:
language: "zh" # TTS语言流式语音
voice:
streaming: true # 边生成边播放流式模式下,AI说话的同时就开始播放,不需要等全部生成。
实际使用体验
Telegram语音
发一条语音消息给Bot,AI自动识别、处理、语音回复。适合移动场景。
Discord语音频道
最沉浸的体验。AI加入语音频道,像真人一样跟你对话。适合:
- 游戏语音助手
- 编程讨论
- 多人会议助手
CLI麦克风模式
hermes voice按住空格键说话,松开后AI处理并语音回复。
成本控制
- OpenAI TTS:$0.015/1000字符,便宜
- ElevenLabs:$0.30/10000字符,贵但质量好
- Whisper:$0.006/分钟,便宜
- 本地部署:零API成本,需要GPU
常见问题
TTS声音不自然?
换用ElevenLabs等高质量TTS服务,或本地部署Coqui。
中文识别不准?
确保STT配置了中文语言,Whisper对中文支持很好。
语音延迟高?
选择延迟低的STT/TTS服务商,或本地部署。
Discord语音无法加入?
检查Bot权限:需要"连接"和"说话"权限。
总结
TTS和STT是Voice Mode的基础:
- TTS:OpenAI、ElevenLabs、Coqui可选
- STT:Whisper最准,支持中文
- 成本:本地部署零成本,API按量付费
- 质量:ElevenLabs最自然
建议先试OpenAI TTS + Whisper,够用且便宜。








暂无评论内容