AI产业链地图·知识库 多模态模型 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/多模态模型
更新 2026·06·17
概念 技术 / 术语

多模态模型

Multimodal Model · 多模态 LLM · MLLM · Multimodal LLM

多模态模型是单一模型能同时理解和生成多种模态数据(不是简单拼接多个单模态模型)。核心特征:

多模态模型 CONCEPT · 概念
首次提出
2023
关键参与方
[[OpenAI]] · [[Google]] · [[Anthropic]] · [[Meta]]
反向引用
3 处 · 来自 3
归属 多模态LLM视觉音频第四层

多模态模型

文本 + 图像 + 视频 + 音频 + 代码于一体的统一模型架构。2026 年领先基础模型已不再是纯文本 LLM,GPT-4o / Gemini 2.5 / Claude 4.5 Opus 均已具备强大的多模态能力。

定义

多模态模型是单一模型能同时理解和生成多种模态数据(不是简单拼接多个单模态模型)。核心特征:

  • 跨模态语义对齐
  • 统一表示空间
  • 端到端训练
  • 任意模态输入/输出组合

技术细节

  • 早融合(GPT-4o)— 在原始 token 层面融合
  • 晚融合(早期 CLIP)— 各模态独立编码后对齐
  • 跨模态注意力 — Attention 跨模态计算
  • 扩展模态:图像 → 视频 → 3D → 音频 → 触觉

主要玩家

  • OpenAI — GPT-4o(原生多模态)
  • Google — Gemini 2.5(多模态原生设计)
  • Anthropic — Claude 4.5 Opus(视觉强)
  • Meta — Llama 4(多模态开源)
  • 阿里巴巴 — Qwen-VL / Qwen-Audio

在 AI 产业链中的角色

多模态融合是 4-02-模型工厂 2026 主轴趋势。竞争已不仅是"谁的文本推理更强",而是"谁的全模态能力更均衡更协调"。视频生成升级至分钟级,AI 音乐达 studio 级,3D 生成 10 秒可用,全部依托多模态架构。

演进历史

  • 2021 CLIP(OpenAI)开启图文对齐时代
  • 2023-09 GPT-4V 视觉能力发布
  • 2024-05 GPT-4o 原生多模态
  • 2024 Gemini 1.5 / Claude 3.5 视觉
  • 2025 视频生成(Sora / 可灵 / Seedance)成熟

∈ belongs_to::4-02-模型工厂