llama.cpp 是一个专注本地大语言模型(LLM)推理的开源项目,它用纯 C/C++ 实现,不依赖 Python、CUDA 或大型深度学习框架,却能在 Mac M系列芯片、Windows 笔记本甚至树莓派上流畅运行 7B、13B 甚至 34B 规模的模型。它解决了“想体验大模型但显卡不够、环境太重、部署太难”的核心痛点——把大模型从云端拉回你的桌面,真正实现「开箱即用、离线可用、低门槛可玩」。
核心功能
- 极致轻量,零依赖运行:编译后仅需一个可执行文件,无需 Python 环境、不装 PyTorch/TensorFlow,连 GPU 都不是必须项——CPU 即可推理,Apple Silicon 芯片优化尤其出色。
- 全平台原生支持:完美适配 macOS(ARM64/x86_64)、Linux(x86_64/ARM64)、Windows(MSVC/MinGW),还支持 Android 和 WebAssembly(通过 WASI),真正做到“写一次,到处跑”。
- 智能量化压缩技术:内置 Q4_K_M、Q5_K_S、IQ4_XS 等十余种量化方案,7B 模型可压缩至 <4GB 内存占用,13B 模型也能在 16GB 内存笔记本上流畅对话,兼顾速度与精度。
- 开箱即用的交互体验:提供命令行 REPL、HTTP REST API(
llama-server)、WebSocket 接口,还自带现代化 Web UI(基于 React + Rust),浏览器打开即聊,无需前端开发。 - 无缝对接 Hugging Face 生态:支持直接下载 HF Hub 上的 GGUF 格式模型(如
llama-3-8b-instruct.Q5_K_M.gguf),且自动复用标准 HF 缓存目录,与其他工具(transformers、llama-cpp-python)共享模型缓存,告别重复下载。 - 面向开发者友好设计:提供稳定 C API(libllama)和清晰文档,可轻松嵌入到 C/C++/Rust/Go/Node.js 等任意应用中;同时支持 gpt-oss 等新兴开源模型及 MXFP4 原生格式,持续拥抱前沿演进。
适合哪些人用
如果你是以下角色之一,llama.cpp 极可能成为你日常开发或学习中的「生产力杠杆」:
• 个人开发者与技术爱好者:想在自己笔记本上实测 Llama-3、Phi-3、Gemma 等热门模型,不折腾环境,不买显卡;
• 边缘计算/嵌入式工程师:需要在资源受限设备(如工控机、IoT 网关)部署轻量 AI 能力;
• 教育工作者与学生:用于教学演示、AI 原理实践、模型微调前的快速验证;
• 企业内部工具构建者:将本地 LLM 集成进内部知识库、客服辅助、代码解释等私有化系统,数据不出内网;
• 开源项目维护者:寻找稳定、可嵌入、MIT 协议的底层推理引擎,避免许可证风险与依赖绑架。
快速上手
以 macOS 或 Linux 为例(Windows 用户可使用预编译二进制或 WSL):
- 克隆并编译:
git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp && make -j - 下载一个 GGUF 模型(推荐入门款):
wget https://huggingface.co/TheBloke/Llama-3.2-1B-Instruct-GGUF/resolve/main/llama-3.2-1b-instruct.Q4_K_M.gguf - 启动交互式聊天:
./main -m llama-3.2-1b-instruct.Q4_K_M.gguf -p "你好,请用中文简单介绍你自己" - 或启动 Web 服务:
./server -m llama-3.2-1b-instruct.Q4_K_M.gguf --port 8080,然后浏览器访问 http://localhost:8080 即可使用图形界面。
更多模型可在 Hugging Face GGUF 模型区 免费获取,全部免登录、免申请、即下即用。
项目信息
LLM inference in C/C++
110.8k
今日 +179 stars today
Stars
18.3k
Forks
C++
MIT
编程语言:C++|GitHub Star 数:110,763|开源协议:MIT|GitHub 项目地址
它不是另一个“玩具级”实验项目,而是已被 Obsidian、Ollama、LM Studio、Text Generation WebUI 等数十个主流工具深度集成的工业级推理基石——用最简代码,释放最大可能。



