通义实验室最近推出的Qwen-VLA,给具身智能领域带来了一个很有意思的方向——把视觉、语言和动作真正统一到一个模型里。要知道,市面上通用的视觉语言模型和机器人用的控制模型,之前基本是各干各的,换一个机器人平台就要重新训练,甚至换个任务都得另起炉灶。Qwen-VLA的野心不小:它不仅想当“通用大脑”,还想做到即插即用,零样本泛化。
具体来说,它以Qwen3.5-4B作为视觉语言主干,再搭配一个1.15B参数的DiT动作解码器。这个组合的最大亮点是,它用一个统一的动作轨迹预测框架,把操作、导航、轨迹预测这三类核心任务整合到了同一个模型中。更厉害的是,它采用了一种“本体感知提示条件化”的思路——你只需要修改一段文本描述,就能让模型适配11种不同的机器人平台,从WidowX到Franka Panda,从Mobile ALOHA到Galaxea R1,覆盖单臂、双臂、移动底座等完全不同的硬件配置。
模型在多个基准测试中的表现也相当抢眼,能直接超越不少专用模型。零样本动态操作成功率达到了26.6%,这意味着它无需专门针对动态场景训练,就能处理运动中的物体。可以说,Qwen-VLA正试图推动具身智能从“技能专家”走向“通用行动者”。
Qwen-VLA的主要功能
功能层面,Qwen-VLA做了几件关键的事:
- :一个模型搞定操作、导航、轨迹预测三大任务。过去这是三个不同的模型各管一摊,现在被整合到一个框架里。
- :WidowX、Franka Panda、Mobile ALOHA、Galaxea R1等11种机器人平台,只要改一段文本提示,模型就能自动切换到对应的硬件配置。
- :面对从未见过的颜色、实例、位置、背景、指令,模型依然能保持高成功率,不需要为每个新环境重新训练。
- :更让人惊讶的是,它不需要任何动态训练数据,就能零样本操作正在运动的物体。在DOMINO基准上26.6%的成功率,已经超越了那些专门为动态场景微调的模型。
- :它引入了一个任务自适应的token分配机制,能为长指令保留更丰富的历史信息。在VLN-CE基准上,R2R达到57.5%,RxR达到59.6%,直接超越了专用的导航模型。
Qwen-VLA的技术原理
那么,Qwen-VLA是怎么做到这些的?技术层面有几个核心设计。
传统的做法是把操作、导航、轨迹预测拆成独立的模型,结果是跨任务迁移非常困难。但Qwen-VLA的研究者发现,这三个任务的计算结构本质上是同构的——都是“观察场景 + 理解指令 → 预测未来动作序列”。既然如此,为什么不用一个模型来干?于是他们用Qwen3.5-4B作为视觉语言主干,搭配1.15B的DiT动作解码器,不同任务的数据在同一训练过程中共同监督,视觉定位和空间推理能力也因此实现了跨任务迁移。
机器人硬件差异是个老难题。传统的做法是每种本体定制一个独立分支,成本高且维护麻烦。Qwen-VLA想了个巧妙的办法:把硬件差异编码成结构化的文本提示,作为唯一的外部接口。提示里包含机器人型号、臂数、关节配置、控制频率等信息,直接交给视觉语言模型处理。骨干网络的隐藏状态与噪声动作块拼接后,一起送入DiT解码器。推理的时候,只需要替换提示文本,就能切换到不同平台,架构本身完全不用动。
训练过程中有个现实问题:视觉语言模型已经预训练好了,但DiT解码器是从零初始化的。硬碰硬地一起训练,不仅效果差,还容易干扰已有的VLM成果。解决方案分两步走:先冻结VLM,单独训练DiT,而且不提供图像,只输入文本。这么做的目的是让DiT先学会动作分布、文本与动作的对齐、以及本体条件化。这个阶段的计算代价,仅仅是多模态训练的十分之一。消融实验也验证了这一点:20%合成数据加80%真实数据的组合效果最好,达到71.1%的成功率;而且没有图像反而优于有图像,2000步就能达到峰值。
如何使用Qwen-VLA
使用方面,流程也比较清晰:
- :从GitHub克隆官方仓库,安装依赖,下载预训练权重。这些常规操作不再赘述。
- :根据实际机器人的硬件配置生成本体提示,将图像、指令和提示一起输入模型。模型输出的动作序列直接发送给机器人执行,循环迭代实现闭环控制。
- :如果需要自己训练或微调,可以按T2A → CPT → SFT → RL四阶段流程逐步进行,逐步提升动作生成、视觉感知、任务适配和闭环优化的能力。
- :切换机器人时,只需要修改提示中的硬件描述字段。如果适配新本体,采集数据后在SFT阶段微调即可,流程非常简洁。
Qwen-VLA的核心优势
总结来看,Qwen-VLA的核心优势集中在几个方面:
- :在5个仿真基准中,有3个表现超过了最佳的专用模型。通用模型打败专用模型,这才是真正的突破。
- :只改一段文本提示就能搞定,不需要为每种机器人重新训练模型,这在实际部署中非常实用。
- :T2A阶段的计算成本仅为多模态训练的十分之一,同时避免了干扰VLM已有的预训练成果,效率极高。
- :真实世界平均OOD成功率76.9%,比π₀.₅高出35.4个百分点,比无预训练的变体高出40.7个百分点。这个差距相当显著。
- :DOMINO基准上零样本26.6%,超过了专为动态场景微调的PUMA(17.2%)。
Qwen-VLA的项目地址
- :https://qwen.ai/blog?id=qwenvla
- :https://github.com/QwenLM/Qwen-VLA
- :https://arxiv.org/pdf/2605.30280
Qwen-VLA的同类竞品对比
如果放在当前具身智能模型的环境中做对比,Qwen-VLA与π₀.₅(Physical Intelligence)的差异非常明显:
| 维度 |
Qwen-VLA |
π₀.₅ (Physical Intelligence) |
|
Qwen3.5-4B VLM + 1.15B DiT 解码器 |
基于流匹配的 VLA 架构 |
|
操作+导航+轨迹预测三任务统一 |
专注操作任务 |
|
文本提示条件化,无需改架构 |
需针对不同本体微调或适配 |
|
11 种(WidowX、ALOHA、Franka 等) |
主要支持少量主流平台 |
|
T2A 无视觉预训练(计算成本 1/10) |
端到端多模态联合训练 |
|
零样本 26.6%(DOMINO) |
零样本 7.5% |
|
真实世界平均 76.9% |
41.5% |
|
VLN-CE R2R 57.5%,超越专用导航模型 |
不支持 |
|
论文+代码+权重全开源 |
部分开源 |
|
T2A 阶段计算成本为多模态 1/10 |
标准多模态训练成本 |
Qwen-VLA的应用场景
这不仅仅是技术层面的探索,它对应着非常具体的落地场景:
- :同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务,不需要为每个任务单独部署模型。这意味着现场维护和升级的工作量大幅下降。
- :一台家用机器人在厨房执行操作、在客厅自主导航、在走廊规划轨迹——任务类型无缝切换,背后靠的就是这个统一模型。
- :研究人员可以在不同硬件平台上快速验证算法。换一个机器人,改一段文本提示就行,不用为每个平台重新训练模型。这大大降低了科研门槛。
- :物流仓储中抓取传送带上的运动包裹,不需要专门针对动态场景重新采集训练数据。零样本即可应对动态物体。
- :博物馆导览机器人执行“先去A展厅拍照,绕过人群去B展厅”这类多步骤长指令,Qwen-VLA的长时程导航能力正好派上用场。