CUA(Computer-Use Agent)是一个面向未来的开源项目,它不训练大语言模型本身,而是为AI智能体打造一套可运行、可测试、可部署的“真实操作系统环境”。简单说——它让AI不仅能“想”,还能“点鼠标、敲键盘、开软件、切窗口、拖文件”,在真实的 macOS、Windows 和 Linux 桌面上完成端到端任务。这正是当前AI从“聊天机器人”迈向“数字员工”的关键一步。
核心功能
- 跨平台沙箱环境:内置轻量级虚拟化支持(Windows Sandbox、macOS Virtualization Framework、Linux container),为每个AI智能体提供隔离、可重置、带GUI的完整桌面环境,确保安全与可复现性。
- 标准化控制SDK:提供统一API(含Python/TypeScript客户端),让开发者无需关心底层系统差异,即可调用截图、OCR识别、鼠标点击、键盘输入、应用启动等原子操作。
- 真实任务基准测试集(Benchmarks):预置上百个贴近用户日常的桌面任务(如“在Chrome中搜索‘2024年国庆放假安排’并截图保存到桌面”),支持自动评估智能体成功率、步骤效率与鲁棒性。
- 开箱即用的开发沙盒:一键启动本地桌面沙箱(支持M1/M2/M3 Mac、Windows 11 Pro、主流Linux发行版),配合VS Code插件和实时调试视图,大幅降低AI Agent开发门槛。
- 多智能体协同框架支持:设计上兼容LUME、Manus、Operator等主流AI Agent架构,支持将复杂任务拆解为“规划Agent + 执行Agent + 验证Agent”的流水线协作模式。
- 生产就绪部署能力:提供Docker Compose配置与K8s Helm Chart,可将沙箱集群部署至私有云或边缘设备,支撑企业级自动化流程(如客服工单处理、HR入职配置、IT运维巡检)。
适合哪些人用
如果你是以下角色之一,CUA 值得你立刻收藏并尝试:
- AI研究员与工程师:正在探索具身智能(Embodied AI)、桌面自动化(Desktop Automation)或Agent Evaluation方向,需要真实、可控、可量化的实验基座;
- 产品与自动化团队:希望快速验证AI能否替代人工完成GUI密集型重复工作(如财务报销录入、电商后台批量上架、政务系统数据填报);
- 高校教学与课程设计者:寻找比“命令行Agent”更直观、比“模拟器Agent”更真实的教学案例,帮助学生理解AI如何与物理世界(此处指操作系统界面)交互;
- 技术爱好者与Hacktoberfest参与者:项目采用MIT协议,文档完善、社区活跃(Discord超3000人),贡献Issue、修复Bug、新增Benchmark任务均被高度欢迎。
快速上手
无需配置复杂依赖,5分钟即可跑通首个AI操作任务:
- 安装前提:macOS 13+/Windows 11 Pro(启用WSL2+Windows Sandbox)/Ubuntu 22.04+(需安装libvirt、qemu);
- 克隆项目:
git clone https://github.com/trycua/cua && cd cua; - 一键启动沙箱:
make sandbox(Mac)或./scripts/start-win-sandbox.ps1(Windows PowerShell); - 运行示例Agent:
python examples/web_search_agent.py,观察AI如何自动打开浏览器、输入搜索词、截取结果页并保存文件; - 访问 官方文档 查看SDK详解、Benchmark接入指南与CI/CD集成方案。
项目信息
Open-source infrastructure for Computer-Use Agents. Sandboxes, SDKs, and benchmarks to train and evaluate AI agents that can control full desktops (ma
编程语言:HTML(主仓库含大量HTML/JS前端用于可视化调试,核心逻辑由Rust/Python实现)| Star 数:14366| 开源协议:MIT|GitHub 项目地址
虽然托管于GitHub,但其设计理念高度契合国内对“自主可控AI基础设施”的需求——所有沙箱组件均可离线部署,Benchmark任务支持中文界面适配,社区已出现多个基于CUA的中文办公自动化实践案例。
如果你厌倦了只在Terminal里“假装操作电脑”的AI演示,CUA就是那个让智能体真正坐到你电脑前、开始工作的开源起点。





