通义千问新突破：Qwen-VLA——首个真正“看懂世界、听懂指令、直接动手”的开源具身智能大模型

昆仑开源易选

2026-06-02 0 121

Qwen-VLA 是通义实验室推出的全新一代具身智能（Embodied AI）基础模型，它首次将视觉理解、语言交互与机器人动作生成深度统一于一个架构中。不同于传统AI只能“看图说话”或“回答问题”，Qwen-VLA 能真正理解用户自然语言指令（如“把桌上的红色杯子拿给我”），实时分析摄像头画面，再直接输出机械臂关节轨迹或移动机器人运动路径——让大模型从“嘴强王者”变成“手脑并用”的数字工人。

核心功能

跨任务统一动作建模：一套模型同时支持机械臂操作、移动机器人导航、未来轨迹预测三大场景，无需为每类任务单独训练模型
多模态端到端推理：输入RGB视频流 + 自然语言指令 → 直接输出高精度关节角度序列或轮式底盘控制信号，中间无需人工设计状态机或规划模块
跨平台即插即用：通过“具身感知提示工程”（embodiment-aware prompt conditioning），同一套权重可适配UR5、Franka、Go1、TurtleBot等多种真实/仿真机器人平台
基于Qwen3.5-4B的强语义理解：继承通义千问最新语言-视觉骨干能力，精准解析复杂指令中的空间关系（“左边第二格抽屉里”）、时序逻辑（“先开门，再取纸巾，最后关灯”）和隐含意图
DiT流匹配动作解码器：采用11.5亿参数的扩散式Transformer（DiT）架构，生成平滑、安全、物理可行的动作序列，显著优于传统回归或自回归方案
开放数据接口与评估工具：提供标准ROS2桥接模块、BridgeData-X等主流具身数据集加载器，以及Sim2Real迁移评测基准

适合哪些人用

高校与研究所的具身AI研究者、机器人算法工程师、AI+硬件初创团队、工业自动化解决方案提供商，以及希望在真实机器人上快速验证大模型能力的教育机构。尤其适合已有视觉传感器（RGB-D相机/鱼眼镜头）和基础运动控制能力（如支持ROS2或MoveIt的机械臂），但缺乏端到端具身智能开发经验的团队。

快速上手

项目已提供完整Docker镜像与Colab一键运行脚本。本地部署推荐配置：单张A100 80GB显卡（推理）或双卡（微调）。安装仅需三步：

克隆仓库：git clone https://github.com/QwenLM/Qwen-VLA.git
安装依赖：cd Qwen-VLA && pip install -e .[all]
运行演示：python demo/realtime_demo.py --model-path Qwen-VLA-7B --camera-id 0（连接USB摄像头后即可语音/文本控制模拟机器人）

详细教程、预训练权重下载地址及ROS2驱动包均在GitHub README中提供，零基础用户20分钟内可完成首次动作生成。