ASR
Automatic Speech Recognition,自动语音识别 — 将人类语音转为文字的技术。AI 客服语音渠道的入口,与 TTS / NLU 组成完整语音对话能力。
定义
ASR 将声波信号经过特征提取(MFCC / Mel-Spectrogram)、声学建模、语言模型后输出文字。当前主流是端到端深度学习(Conformer / Whisper)。
技术演进
- GMM-HMM 时代(1990s-2010s):混合高斯模型 + 隐马尔可夫
- DNN-HMM 混合(2010s):深度神经网络替换 GMM
- 端到端时代(2020+):CTC / Attention / Conformer
- 大模型时代(2022+):Whisper / 阿里 Paraformer
在 AI 客服中的应用
- 电话客服:将客户来电转文字
- 方言支持:粤语 / 川话 / 闽南语
- 多语言:20+ 种语言(智齿科技 等)
- 实时性:流式 ASR,毫秒级延迟
主要玩家
在 AI 产业链中的角色
∈ belongs_to::5-11-AI客服-对话机器人 ↑ up::科大讯飞 / Whisper ↓ down::NLU → 业务执行