VLA模型
Vision-Language-Action Model = 视觉 + 语言 + 动作三模态端到端模型。是 具身智能 的"大脑",让机器人具备"看懂 → 理解 → 执行"的完整能力。
定义
VLA(Vision-Language-Action)模型是一种端到端的多模态大模型,输入视觉观测 + 自然语言指令,直接输出机器人动作(关节角度 / 末端位姿 / 夹爪开合)。区别于传统机器人控制需要"感知 → 规划 → 运动控制"模块化流水线 — VLA 用一个统一神经网络处理所有环节。
技术细节
- 架构 — 通常基于多模态 VLM 微调(如 PaLI、Llama-3.2-Vision),输出层重新训练为动作 token
- 训练 — 大规模机器人遥操数据 + 互联网视频 + 仿真数据,标注 SoTA 包括 群核科技 SpaceVerse
- 推理 — 端到端单次前向输出动作序列,频率 10-30 Hz
- 挑战 — 训练数据稀缺(不像 LLM 有互联网文本)、长程任务、安全保障
主要玩家
国际
- Google RT-2 — 2023-07 首个公开 VLA,开创范式
- OpenAI — 与 Figure AI 合作(早期)
- Figure AI Helix — 2025 自研 VLA
- NVIDIA Project GR00T — 通用机器人基础模型
- Tesla FSD → Optimus — 一份模型迁移
中国
- 智元机器人 天工大模型 — 与 360集团 合作(据 5-02 具身智能 hub,T2.5)
- 优必选 Walker AI — 整机厂自研路径(同上)
在 AI 产业链中的角色
- 是 4-02-模型工厂 在 5-02-具身智能-人形机器人 中的具体应用形态
- "数据飞轮"决定 VLA 上限:机器人部署越多 → 真实场景数据越多 → VLA 越强
- 与传统模块化机器人控制形成路径之争
演进历史
- 2022-07 Google RT-1 — 模仿学习 transformer 控制
- 2023-07 Google RT-2 — 首个公开 VLA,从 VLM 微调
- 2024 OpenVLA / OctoVLA 等开源工作
- 2025 Figure AI Helix / NVIDIA GR00T 商业化产品
- 2026E Tesla Optimus 端到端 VLA 量产落地
相关概念
已废弃叙述
2026-05-29 事实订正:移除"百川智能 Baichuan-Robot 国内 VLA 早期玩家"(raw 5-02 hub 未覆盖 + WebSearch 无对应证据,百川智能为 LLM 公司,无公开 VLA/机器人产品)
- 百川智能 Baichuan-Robot — 国内 VLA 早期玩家
依据:百川智能成立 2023-04(王小川),产品线为 Baichuan-7B/13B/53B 及 2026-02 医疗大模型 Baichuan-M3,无公开人形机器人/具身智能/VLA 业务(Cognex/百川百科核查 2026-05-29,T2)。本项目 raw 一手料(5-02 具身智能 hub)列出的国内 VLA/具身玩家为智元机器人、优必选,不含百川智能。
∈ belongs_to::5-02-具身智能-人形机器人