TTS
Text-to-Speech,语音合成 — 将文字转为人类语音的技术。AI 客服语音渠道的出口,与 ASR 配合实现完整电话客服闭环。
定义
TTS 将文字经过文本分析(分词 / 词性 / 韵律)+ 声学模型 + 声码器后输出 PCM 音频。当前主流是端到端神经语音合成(Tacotron / FastSpeech / VALL-E)。
技术演进
- 拼接合成时代:录音库片段拼接
- 参数合成时代:HMM-based 统计参数
- 深度学习时代(2017+):Tacotron / WaveNet / FastSpeech
- 大模型时代(2023+):ElevenLabs / VALL-E / 语音克隆
在 AI 客服中的应用
- 电话客服外呼:合成自然语音播报
- 个性化语音:定制企业品牌音
- 情感 TTS:识别用户情绪 + 匹配应答语气
- 多语言:跨境客服多语种支持
- 方言:粤语 / 川话等
主要玩家
- 语音 AI 龙头:科大讯飞(中文方言 + 翻译机)
- 国际新势力:ElevenLabs(语音克隆 突破)
- 客服集成:容联云 / 天润融通
在 AI 产业链中的角色
∈ belongs_to::5-11-AI客服-对话机器人 ↑ up::科大讯飞 / ElevenLabs ↓ down::语音客服外呼 / 虚拟数字人