多模态交互
Multimodal Interaction — 同时支持文本 + 语音 + 图像 + 视频 + AR 等多种交互形式的客户服务能力。2023 后已成为 AI 客服标配。
定义
多模态交互要求 AI 客服在不同渠道间无缝切换:用户可在网页打字、电话说话、视频通话指设备故障,系统统一理解和响应。
主要模态
| 模态 | 渠道 | 典型应用 |
|---|---|---|
| 文本 | 网页 / App / 微信 | 在线客服、富文本+表情 |
| 语音 | 电话 / 呼叫中心 | ASR + TTS + 情感分析 |
| 视频 | 远程指导 | 设备安装、故障排查 |
| AR | App 增强现实 | 虚拟标注、远程协助 |
| 虚拟数字人 | 多端 | 3D 建模 + 语音合成 + 动作捕捉 |
技术挑战
- 跨模态对齐:同一用户在不同渠道的会话连续性
- 统一上下文:网页对话 → 电话续聊上下文不丢失
- 模态融合:文本 + 语音情感的联合判断
主要玩家
在 AI 产业链中的角色
∈ belongs_to::5-11-AI客服-对话机器人 ↑ up::ASR / TTS / 多模态模型