AI产业链地图·知识库 ASR · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
更新 2026·06·17
概念 技术 / 术语

ASR

Automatic Speech Recognition · 自动语音识别 · 语音识别

ASR 将声波信号经过特征提取(MFCC / Mel-Spectrogram)、声学建模、语言模型后输出文字。当前主流是端到端深度学习(Conformer / Whisper)。

ASR CONCEPT · 概念
首次提出
1952
关键参与方
[[科大讯飞]] · [[容联云]] · [[天润融通]]
反向引用
7 处 · 来自 5
归属 语音AIAI客服NLP第五层

ASR

Automatic Speech Recognition,自动语音识别 — 将人类语音转为文字的技术。AI 客服语音渠道的入口,与 TTS / NLU 组成完整语音对话能力。

定义

ASR 将声波信号经过特征提取(MFCC / Mel-Spectrogram)、声学建模、语言模型后输出文字。当前主流是端到端深度学习(Conformer / Whisper)。

技术演进

  • GMM-HMM 时代(1990s-2010s):混合高斯模型 + 隐马尔可夫
  • DNN-HMM 混合(2010s):深度神经网络替换 GMM
  • 端到端时代(2020+):CTC / Attention / Conformer
  • 大模型时代(2022+):Whisper / 阿里 Paraformer

在 AI 客服中的应用

  • 电话客服:将客户来电转文字
  • 方言支持:粤语 / 川话 / 闽南语
  • 多语言:20+ 种语言(智齿科技 等)
  • 实时性:流式 ASR,毫秒级延迟

主要玩家

在 AI 产业链中的角色

∈ belongs_to::5-11-AI客服-对话机器人 ↑ up::科大讯飞 / Whisper ↓ down::NLU → 业务执行

相关概念