Hermes Agent TTS和STT配置：让AI会说话会听话（2026最新）-China AI Hub

维护咨询大模型部署问题解决技能定制大模型训练

站长交流微信: aixbwz

Voice Mode需要TTS（文字转语音）和STT（语音转文字）引擎才能工作。配置好这两个引擎后，AI不仅能打字回复，还能用语音跟你说话。这篇讲清楚TTS和STT引擎有哪些、如何配置、以及实际使用体验。

TTS引擎配置

TTS负责把AI的文字回复转成语音。

OpenAI TTS

tts:
  provider: "openai"
  model: "tts-1"
  voice: "alloy"
  api_key: "${OPENAI_API_KEY}"

OpenAI TTS语音选项：

alloy：中性、清晰
echo：男性、低沉
fable：男性、温暖
onyx：男性、深沉
nova：女性、清亮
shimmer：女性、柔和

ElevenLabs TTS

tts:
  provider: "elevenlabs"
  api_key: "${ELEVENLABS_API_KEY}"
  voice: "rachel"
  model: "eleven_multilingual_v2"

ElevenLabs是专业TTS服务，中文支持好，声音自然。

Coqui TTS（开源）

tts: provider: "coqui" model: "xtts_v2" device: "cuda"

Coqui是开源TTS，可以本地部署，不需要API Key。

系统TTS

tts: provider: "system" voice: "Microsoft Huihui"

使用系统自带的TTS，Windows用SAPI5，macOS用AVSpeechSynthesizer。

STT引擎配置

STT负责把你的语音转成文字。

OpenAI Whisper

stt: provider: "openai" model: "whisper-1" api_key: "${OPENAI_API_KEY}"

Whisper是最准确的通用STT，支持中文。

DeepGram

stt: provider: "deepgram" api_key: "${DEEPGRAM_API_KEY}" model: "nova-2"

DeepGram延迟低，实时性好。

Google STT

stt: provider: "google" credentials: "${GOOGLE_STT_CREDENTIALS}" language: "zh-CN"

开源Whisper本地部署

stt: provider: "whisper-local" model: "large-v3" device: "cuda"

本地部署Whisper，不需要API Key，隐私性好。

完整Voice配置示例

voice: enabled: true tts: provider: "elevenlabs" api_key: "${ELEVENLABS_API_KEY}" voice: "rachel" model: "eleven_multilingual_v2"

stt: provider: "openai" model: "whisper-1" api_key: "${OPENAI_API_KEY}" language: "auto"

Telegram语音配置

telegram: bot_token: "${TELEGRAM_BOT_TOKEN}" voice_reply: true voice_transcribe: true

Discord语音配置

discord: bot_token: "${DISCORD_BOT_TOKEN}" voice: enabled: true auto_join: false deafen: true

语音命令

/voice on # 开启语音回复 /voice off # 关闭语音回复 /voice tts # 只发语音，不发文字 /voice status # 查看语音状态 /voice join # 加入Discord语音频道 /voice leave # 离开语音频道

语音质量优化

选择合适语音

不同TTS引擎有不同风格，选择最适合你的：

正式场合：选声音清晰、语速适中的
日常对话：选自然、亲切的
中文场景：确保TTS支持中文

语言一致性

# 确保STT和TTS语言一致 stt: language: "zh" # Whisper语言代码

tts: language: "zh" # TTS语言

流式语音

voice: streaming: true # 边生成边播放

流式模式下，AI说话的同时就开始播放，不需要等全部生成。

实际使用体验

Telegram语音

发一条语音消息给Bot，AI自动识别、处理、语音回复。适合移动场景。

Discord语音频道

最沉浸的体验。AI加入语音频道，像真人一样跟你对话。适合：

游戏语音助手
编程讨论
多人会议助手

CLI麦克风模式

hermes voice

按住空格键说话，松开后AI处理并语音回复。

成本控制

OpenAI TTS：$0.015/1000字符，便宜
ElevenLabs：$0.30/10000字符，贵但质量好
Whisper：$0.006/分钟，便宜
本地部署：零API成本，需要GPU

常见问题

TTS声音不自然？

换用ElevenLabs等高质量TTS服务，或本地部署Coqui。

中文识别不准？

确保STT配置了中文语言，Whisper对中文支持很好。

语音延迟高？

选择延迟低的STT/TTS服务商，或本地部署。

Discord语音无法加入？

检查Bot权限：需要"连接"和"说话"权限。

总结

TTS和STT是Voice Mode的基础：

TTS：OpenAI、ElevenLabs、Coqui可选
STT：Whisper最准，支持中文
成本：本地部署零成本，API按量付费
质量：ElevenLabs最自然

建议先试OpenAI TTS + Whisper，够用且便宜。

文章版权归作者所有，未经允许请勿转载。

THE END

Hermes Agent TTS和STT配置：让AI会说话会听话（2026最新）