Qwen-VLA 是通义实验室推出的全新一代具身智能(Embodied AI)基础模型,它首次将视觉理解、语言交互与机器人动作生成深度统一于一个架构中。不同于传统AI只能“看图说话”或“回答问题”,Qwen-VLA 能真正理解用户自然语言指令(如“把桌上的红色杯子拿给我”),实时分析摄像头画面,再直接输出机械臂关节轨迹或移动机器人运动路径——让大模型从“嘴强王者”变成“手脑并用”的数字工人。
核心功能
- 跨任务统一动作建模:一套模型同时支持机械臂操作、移动机器人导航、未来轨迹预测三大场景,无需为每类任务单独训练模型
- 多模态端到端推理:输入RGB视频流 + 自然语言指令 → 直接输出高精度关节角度序列或轮式底盘控制信号,中间无需人工设计状态机或规划模块
- 跨平台即插即用:通过“具身感知提示工程”(embodiment-aware prompt conditioning),同一套权重可适配UR5、Franka、Go1、TurtleBot等多种真实/仿真机器人平台
- 基于Qwen3.5-4B的强语义理解:继承通义千问最新语言-视觉骨干能力,精准解析复杂指令中的空间关系(“左边第二格抽屉里”)、时序逻辑(“先开门,再取纸巾,最后关灯”)和隐含意图
- DiT流匹配动作解码器:采用11.5亿参数的扩散式Transformer(DiT)架构,生成平滑、安全、物理可行的动作序列,显著优于传统回归或自回归方案
- 开放数据接口与评估工具:提供标准ROS2桥接模块、BridgeData-X等主流具身数据集加载器,以及Sim2Real迁移评测基准
适合哪些人用
高校与研究所的具身AI研究者、机器人算法工程师、AI+硬件初创团队、工业自动化解决方案提供商,以及希望在真实机器人上快速验证大模型能力的教育机构。尤其适合已有视觉传感器(RGB-D相机/鱼眼镜头)和基础运动控制能力(如支持ROS2或MoveIt的机械臂),但缺乏端到端具身智能开发经验的团队。
快速上手
项目已提供完整Docker镜像与Colab一键运行脚本。本地部署推荐配置:单张A100 80GB显卡(推理)或双卡(微调)。安装仅需三步:
- 克隆仓库:
git clone https://github.com/QwenLM/Qwen-VLA.git - 安装依赖:
cd Qwen-VLA && pip install -e .[all] - 运行演示:
python demo/realtime_demo.py --model-path Qwen-VLA-7B --camera-id 0(连接USB摄像头后即可语音/文本控制模拟机器人)
详细教程、预训练权重下载地址及ROS2驱动包均在GitHub README中提供,零基础用户20分钟内可完成首次动作生成。
项目信息
QwenLM/Qwen-VLA
GitHub
The official repository of Qwen-VLA
400
Stars
16
Forks
Unknown
—
编程语言:Python(PyTorch为主)|Star 数:400|开源协议:暂未明确声明(建议商用前查阅最新LICENSE文件)|GitHub 项目地址
如果你正苦于让大模型“只说不做”,又不愿从零构建复杂的感知-规划-控制流水线——Qwen-VLA 正是那个能帮你把GPT级语言能力,真正落地到机械臂尖端与机器人轮子上的关键拼图。




