你是否厌倦了重复点击网页、手动执行命令、反复切换窗口?GenericAgent 不是一个预装几十种功能的“大而全”AI助手,而是一个真正能“边用边学、越用越强”的轻量级自主智能体。它从极简内核出发,通过与用户交互和环境反馈,自动构建属于你个人的技能树——比如学会订外卖、自动整理下载文件夹、监控竞品价格变化,甚至控制安卓手机。它不依赖云端服务,所有能力都在本地运行,隐私可控、响应飞快、Token 消耗仅为同类方案的 1/6。
核心功能
- 真正的系统级控制:无需额外插件,直接接管浏览器、终端、文件系统、键盘鼠标、屏幕截图与 OCR,还能通过 ADB 连接并操控安卓设备
- 自演化技能树:不靠人工写死指令,而是基于任务目标自主拆解、调用工具、验证结果、沉淀新技能,像人类一样“举一反三”
- 超低资源开销:整个框架仅约 3300 行 Python 代码,Agent 主循环不到 100 行;实测在 M2 Mac 上全程离线运行,单次任务平均仅消耗 1/6 的 LLM Token
- 多模型无缝支持:原生兼容 Claude、Gemini、本地 Ollama 模型(如 Qwen、Phi-3)等主流 LLM,可自由切换推理后端,不绑定任何厂商 API
- 结构化记忆系统:自动记录操作历史、成功模式与失败教训,形成可检索、可复用的长期记忆,避免“每次都是新手”
- 开箱即用的自动化场景:内置 9 个原子级工具(如 open_url、run_command、click_image、type_text),组合起来就能完成复杂流程,比如“查天气→截图→发微信给家人”
适合哪些人用
如果你是:想摆脱重复劳动的程序员、数据分析师或运营人员;重视隐私、拒绝把工作流上传云端的技术爱好者;正在学习 AI Agent 原理的学生或研究者;或是希望用最小成本打造个性化数字助理的普通用户——GenericAgent 正是为你设计的。它不要求你精通强化学习或 PPO 算法,只要你会写自然语言指令,它就能开始帮你干活,并在过程中越变越懂你。
快速上手
安装只需三步:
1. 安装 Python 3.10+ 和 Git
2. 执行 pip install genericagent(推荐使用虚拟环境)
3. 运行 genericagent --model claude-3-haiku --api-key your_key 或连接本地 Ollama:genericagent --model ollama:qwen2:7b
首次运行后,它会引导你完成权限配置(如辅助功能授权、屏幕录制许可)。接着,你就可以直接输入中文指令,例如:“帮我登录知乎,搜索‘开源Agent’,把前5条标题保存成 Markdown 文件”,它将自主规划、执行并返回结果。
项目信息
Self-evolving agent: grows skill tree from 3.3K-line seed, achieving full system control with 6x less token consumption
7.0k
今日 +3,483 stars this week
Stars
789
Forks
Python
MIT
编程语言:Python|GitHub Star 数:7008|开源协议:MIT|GitHub 项目地址
这不是又一个“玩具级”AI Demo,而是一个已在真实办公场景中持续迭代、被数千开发者验证过的生产力内核——轻如羽翼,却能撬动整台电脑。





