LiteRT-LM 是谷歌官方推出的轻量级大语言模型(LLM)推理框架,专为资源受限的终端设备设计。它不是实验性玩具,而是已深度集成进 Chrome、Pixel Watch、Chromebook Plus 等真实产品的生产级引擎——这意味着你手里的安卓手机、MacBook 甚至树莓派,现在就能本地运行 Gema-4、Llama-3、Phi-4 等主流模型,全程离线、低延迟、不依赖云端API。它解决了AI落地“最后一公里”的核心痛点:如何在没有GPU服务器、不上传隐私数据的前提下,在边缘端真正用上最先进的生成式AI能力。
核心功能
- 全平台覆盖无死角:原生支持 Android、iOS、Windows(含WSL)、macOS、Linux 桌面系统,以及 Raspberry Pi、ESP32-C7 等嵌入式IoT设备,一套代码部署到底层硬件
- 智能硬件加速引擎:自动调用手机GPU(Adreno/Mali)、PC显卡(Vulkan/DirectML)、NPU(Google Edge TPU、高通Hexagon、联发科APU)释放峰值算力,推理速度比纯CPU快3–8倍
- 不止于文本:原生多模态支持:内置视觉编码器与音频预处理器,可直接接入摄像头或麦克风,实现“看图说话”“语音问答”等端到端交互场景
- 真·智能体就绪(Agentic Ready):完整支持函数调用(Function Calling)、工具选择(Tool Use)和结构化输出,让本地模型能自主调用天气、日历、文件系统等设备能力
- 开箱即用的主流模型生态:官方提供 Gemma-4、Llama-3-8B、Phi-4、Qwen2、TinyLlama 等数十个已量化优化的 .litertlm 格式模型,全部适配 Hugging Face 生态
- 企业级稳定性保障:基于 C++17 构建,内存零拷贝、线程安全、无Python依赖,支持热更新模型、动态批处理与细粒度性能分析,已在千万级终端稳定运行超18个月
适合哪些人用
这款工具特别适合三类开发者:一是 移动/IoT 应用开发者,想为App添加离线AI助手、语音控制或图像理解能力;二是 边缘AI工程师,需要在无网环境(工厂、车载、医疗设备)部署可信、低功耗的生成式AI;三是 高校研究者与学生,希望在低成本硬件上复现前沿模型能力、学习端侧推理优化技术,无需租用A100云主机。普通爱好者也能用CLI命令行5分钟体验Gemma-4,完全零门槛。
快速上手
无需编译,直接安装预构建二进制包:
• macOS/Linux:运行 curl -fsSL https://ai.google.dev/edge/litert-lm/install.sh | bash
• Windows(WSL):同上;Windows原生版通过 GitHub Releases 下载 zip 包
• Android:集成 litertlm-android AAR 库(文档详尽,含Kotlin/Java示例)
体验Gemma-4只需一条命令:litert-lm run --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm gemma-4-E2B-it.litertlm --prompt="请用中文写一首关于春天的五言绝句"
项目信息
2.5k
今日 +878 stars this week
Stars
251
Forks
C++
Apache-2.0
编程语言:C++|Star 数:2520|开源协议:Apache-2.0|GitHub 项目地址
这是谷歌官方开源、已量产验证的边缘AI基础设施,不是概念验证——它让大模型真正从“云上神坛”走进每个人的口袋与生活场景中。



