Hermes Agent TTS和STT配置:让AI会说话会听话(2026最新)

OpenClaw 企业定制 私人订制工作流 优化运维 openclaw记忆优化 问题咨询解决 请加微信交流

微信: aixbwz

Voice Mode需要TTS(文字转语音)和STT(语音转文字)引擎才能工作。配置好这两个引擎后,AI不仅能打字回复,还能用语音跟你说话。这篇讲清楚TTS和STT引擎有哪些、如何配置、以及实际使用体验。

TTS引擎配置

TTS负责把AI的文字回复转成语音。

OpenAI TTS

tts:
  provider: "openai"
  model: "tts-1"
  voice: "alloy"
  api_key: "${OPENAI_API_KEY}"

OpenAI TTS语音选项:

  • alloy:中性、清晰
  • echo:男性、低沉
  • fable:男性、温暖
  • onyx:男性、深沉
  • nova:女性、清亮
  • shimmer:女性、柔和

ElevenLabs TTS

tts:
  provider: "elevenlabs"
  api_key: "${ELEVENLABS_API_KEY}"
  voice: "rachel"
  model: "eleven_multilingual_v2"

ElevenLabs是专业TTS服务,中文支持好,声音自然。

Coqui TTS(开源)

tts:
provider: "coqui"
model: "xtts_v2"
device: "cuda"

Coqui是开源TTS,可以本地部署,不需要API Key。

系统TTS

tts:
provider: "system"
voice: "Microsoft Huihui"

使用系统自带的TTS,Windows用SAPI5,macOS用AVSpeechSynthesizer。

STT引擎配置

STT负责把你的语音转成文字。

OpenAI Whisper

stt:
provider: "openai"
model: "whisper-1"
api_key: "${OPENAI_API_KEY}"

Whisper是最准确的通用STT,支持中文。

DeepGram

stt:
provider: "deepgram"
api_key: "${DEEPGRAM_API_KEY}"
model: "nova-2"

DeepGram延迟低,实时性好。

Google STT

stt:
provider: "google"
credentials: "${GOOGLE_STT_CREDENTIALS}"
language: "zh-CN"

开源Whisper本地部署

stt:
provider: "whisper-local"
model: "large-v3"
device: "cuda"

本地部署Whisper,不需要API Key,隐私性好。

完整Voice配置示例

voice:
enabled: true

tts:
provider: "elevenlabs"
api_key: "${ELEVENLABS_API_KEY}"
voice: "rachel"
model: "eleven_multilingual_v2"

stt:
provider: "openai"
model: "whisper-1"
api_key: "${OPENAI_API_KEY}"
language: "auto"

Telegram语音配置

telegram:
bot_token: "${TELEGRAM_BOT_TOKEN}"
voice_reply: true
voice_transcribe: true

Discord语音配置

discord:
bot_token: "${DISCORD_BOT_TOKEN}"
voice:
enabled: true
auto_join: false
deafen: true

语音命令

/voice on       # 开启语音回复
/voice off # 关闭语音回复
/voice tts # 只发语音,不发文字
/voice status # 查看语音状态
/voice join # 加入Discord语音频道
/voice leave # 离开语音频道

语音质量优化

选择合适语音

不同TTS引擎有不同风格,选择最适合你的:

  • 正式场合:选声音清晰、语速适中的
  • 日常对话:选自然、亲切的
  • 中文场景:确保TTS支持中文

语言一致性

# 确保STT和TTS语言一致
stt:
language: "zh" # Whisper语言代码

tts:
language: "zh" # TTS语言

流式语音

voice:
streaming: true # 边生成边播放

流式模式下,AI说话的同时就开始播放,不需要等全部生成。

实际使用体验

Telegram语音

发一条语音消息给Bot,AI自动识别、处理、语音回复。适合移动场景。

Discord语音频道

最沉浸的体验。AI加入语音频道,像真人一样跟你对话。适合:

  • 游戏语音助手
  • 编程讨论
  • 多人会议助手

CLI麦克风模式

hermes voice

按住空格键说话,松开后AI处理并语音回复。

成本控制

  • OpenAI TTS:$0.015/1000字符,便宜
  • ElevenLabs:$0.30/10000字符,贵但质量好
  • Whisper:$0.006/分钟,便宜
  • 本地部署:零API成本,需要GPU

常见问题

TTS声音不自然?

换用ElevenLabs等高质量TTS服务,或本地部署Coqui。

中文识别不准?

确保STT配置了中文语言,Whisper对中文支持很好。

语音延迟高?

选择延迟低的STT/TTS服务商,或本地部署。

Discord语音无法加入?

检查Bot权限:需要"连接"和"说话"权限。

总结

TTS和STT是Voice Mode的基础:

  • TTS:OpenAI、ElevenLabs、Coqui可选
  • STT:Whisper最准,支持中文
  • 成本:本地部署零成本,API按量付费
  • 质量:ElevenLabs最自然

建议先试OpenAI TTS + Whisper,够用且便宜。

相关文章

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容

七天热门