VLA模型

Vision-Language-Action · VLA · 视觉语言动作模型 · RT-2 · Helix

VLA（Vision-Language-Action）模型是一种端到端的多模态大模型，输入视觉观测 + 自然语言指令，直接输出机器人动作（关节角度 / 末端位姿 / 夹爪开合）。区别于传统机器人控制需要"感知 → 规划 → 运动控制"模块化流水线 — VLA 用一个统一神经网络处理所有环节。

VLA模型

Vision-Language-Action Model = 视觉 + 语言 + 动作三模态端到端模型。是具身智能的"大脑"，让机器人具备"看懂 → 理解 → 执行"的完整能力。

定义

技术细节

架构 — 通常基于多模态 VLM 微调（如 PaLI、Llama-3.2-Vision），输出层重新训练为动作 token
训练 — 大规模机器人遥操数据 + 互联网视频 + 仿真数据，标注 SoTA 包括群核科技 SpaceVerse
推理 — 端到端单次前向输出动作序列，频率 10-30 Hz
挑战 — 训练数据稀缺（不像 LLM 有互联网文本）、长程任务、安全保障

主要玩家

国际

Google RT-2 — 2023-07 首个公开 VLA，开创范式
OpenAI — 与 Figure AI 合作（早期）
Figure AI Helix — 2025 自研 VLA
NVIDIA Project GR00T — 通用机器人基础模型
Tesla FSD → Optimus — 一份模型迁移

中国

智元机器人天工大模型 — 与 360集团合作（据 5-02 具身智能 hub，T2.5）
优必选 Walker AI — 整机厂自研路径（同上）

在 AI 产业链中的角色

是 4-02-模型工厂在 5-02-具身智能-人形机器人中的具体应用形态
"数据飞轮"决定 VLA 上限：机器人部署越多 → 真实场景数据越多 → VLA 越强
与传统模块化机器人控制形成路径之争

演进历史

2022-07 Google RT-1 — 模仿学习 transformer 控制
2023-07 Google RT-2 — 首个公开 VLA，从 VLM 微调
2024 OpenVLA / OctoVLA 等开源工作
2025 Figure AI Helix / NVIDIA GR00T 商业化产品
2026E Tesla Optimus 端到端 VLA 量产落地

已废弃叙述

2026-05-29 事实订正：移除"百川智能 Baichuan-Robot 国内 VLA 早期玩家"（raw 5-02 hub 未覆盖 + WebSearch 无对应证据，百川智能为 LLM 公司，无公开 VLA/机器人产品）

百川智能 Baichuan-Robot — 国内 VLA 早期玩家

依据：百川智能成立 2023-04（王小川），产品线为 Baichuan-7B/13B/53B 及 2026-02 医疗大模型 Baichuan-M3，无公开人形机器人/具身智能/VLA 业务（Cognex/百川百科核查 2026-05-29，T2）。本项目 raw 一手料（5-02 具身智能 hub）列出的国内 VLA/具身玩家为智元机器人、优必选，不含百川智能。

∈ belongs_to::5-02-具身智能-人形机器人

VLA模型

定义

技术细节

主要玩家

国际

中国

在 AI 产业链中的角色

演进历史

相关概念

已废弃叙述

相关推荐