AI产业链地图·知识库 VLA模型 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/VLA模型
更新 2026·06·17
概念 技术 / 术语

VLA模型

Vision-Language-Action · VLA · 视觉语言动作模型 · RT-2 · Helix

VLA(Vision-Language-Action)模型是一种端到端的多模态大模型,输入视觉观测 + 自然语言指令,直接输出机器人动作(关节角度 / 末端位姿 / 夹爪开合)。区别于传统机器人控制需要"感知 → 规划 → 运动控制"模块化流水线 — VLA 用一个统一神经网络处理所有环节。

VLA模型 CONCEPT · 概念
首次提出
2023
关键参与方
[[OpenAI]] · [[Google]] · [[NVIDIA]] · [[Figure AI]]
反向引用
16 处 · 来自 10
归属 AI模型多模态具身智能机器人第五层

VLA模型

Vision-Language-Action Model = 视觉 + 语言 + 动作三模态端到端模型。是 具身智能 的"大脑",让机器人具备"看懂 → 理解 → 执行"的完整能力。

定义

VLA(Vision-Language-Action)模型是一种端到端的多模态大模型,输入视觉观测 + 自然语言指令,直接输出机器人动作(关节角度 / 末端位姿 / 夹爪开合)。区别于传统机器人控制需要"感知 → 规划 → 运动控制"模块化流水线 — VLA 用一个统一神经网络处理所有环节。

技术细节

  • 架构 — 通常基于多模态 VLM 微调(如 PaLI、Llama-3.2-Vision),输出层重新训练为动作 token
  • 训练 — 大规模机器人遥操数据 + 互联网视频 + 仿真数据,标注 SoTA 包括 群核科技 SpaceVerse
  • 推理 — 端到端单次前向输出动作序列,频率 10-30 Hz
  • 挑战 — 训练数据稀缺(不像 LLM 有互联网文本)、长程任务、安全保障

主要玩家

国际

  • Google RT-2 — 2023-07 首个公开 VLA,开创范式
  • OpenAI — 与 Figure AI 合作(早期)
  • Figure AI Helix — 2025 自研 VLA
  • NVIDIA Project GR00T — 通用机器人基础模型
  • Tesla FSD → Optimus — 一份模型迁移

中国

在 AI 产业链中的角色

演进历史

  • 2022-07 Google RT-1 — 模仿学习 transformer 控制
  • 2023-07 Google RT-2 — 首个公开 VLA,从 VLM 微调
  • 2024 OpenVLA / OctoVLA 等开源工作
  • 2025 Figure AI Helix / NVIDIA GR00T 商业化产品
  • 2026E Tesla Optimus 端到端 VLA 量产落地

相关概念

  • 具身智能 / 人形机器人(VLA 是其核心)
  • 仿真训练(Isaac Sim / Omniverse / SpaceVerse)
  • 强化学习 / 模仿学习

已废弃叙述

2026-05-29 事实订正:移除"百川智能 Baichuan-Robot 国内 VLA 早期玩家"(raw 5-02 hub 未覆盖 + WebSearch 无对应证据,百川智能为 LLM 公司,无公开 VLA/机器人产品)

依据:百川智能成立 2023-04(王小川),产品线为 Baichuan-7B/13B/53B 及 2026-02 医疗大模型 Baichuan-M3,无公开人形机器人/具身智能/VLA 业务(Cognex/百川百科核查 2026-05-29,T2)。本项目 raw 一手料(5-02 具身智能 hub)列出的国内 VLA/具身玩家为智元机器人、优必选,不含百川智能。

∈ belongs_to::5-02-具身智能-人形机器人