谷歌开源的“边缘大模型引擎”：让手机、手表、树莓派也能跑Gemma-4等最新大模型！

昆仑开源易选

2026-04-08 0 146

LiteRT-LM 是谷歌官方推出的轻量级大语言模型（LLM）推理框架，专为资源受限的终端设备设计。它不是实验性玩具，而是已深度集成进 Chrome、Pixel Watch、Chromebook Plus 等真实产品的生产级引擎——这意味着你手里的安卓手机、MacBook 甚至树莓派，现在就能本地运行 Gema-4、Llama-3、Phi-4 等主流模型，全程离线、低延迟、不依赖云端API。它解决了AI落地“最后一公里”的核心痛点：如何在没有GPU服务器、不上传隐私数据的前提下，在边缘端真正用上最先进的生成式AI能力。

核心功能

全平台覆盖无死角：原生支持 Android、iOS、Windows（含WSL）、macOS、Linux 桌面系统，以及 Raspberry Pi、ESP32-C7 等嵌入式IoT设备，一套代码部署到底层硬件
智能硬件加速引擎：自动调用手机GPU（Adreno/Mali）、PC显卡（Vulkan/DirectML）、NPU（Google Edge TPU、高通Hexagon、联发科APU）释放峰值算力，推理速度比纯CPU快3–8倍
不止于文本：原生多模态支持：内置视觉编码器与音频预处理器，可直接接入摄像头或麦克风，实现“看图说话”“语音问答”等端到端交互场景
真·智能体就绪（Agentic Ready）：完整支持函数调用（Function Calling）、工具选择（Tool Use）和结构化输出，让本地模型能自主调用天气、日历、文件系统等设备能力
开箱即用的主流模型生态：官方提供 Gemma-4、Llama-3-8B、Phi-4、Qwen2、TinyLlama 等数十个已量化优化的 .litertlm 格式模型，全部适配 Hugging Face 生态
企业级稳定性保障：基于 C++17 构建，内存零拷贝、线程安全、无Python依赖，支持热更新模型、动态批处理与细粒度性能分析，已在千万级终端稳定运行超18个月

适合哪些人用

这款工具特别适合三类开发者：一是 移动/IoT 应用开发者，想为App添加离线AI助手、语音控制或图像理解能力；二是 边缘AI工程师，需要在无网环境（工厂、车载、医疗设备）部署可信、低功耗的生成式AI；三是 高校研究者与学生，希望在低成本硬件上复现前沿模型能力、学习端侧推理优化技术，无需租用A100云主机。普通爱好者也能用CLI命令行5分钟体验Gemma-4，完全零门槛。

快速上手

无需编译，直接安装预构建二进制包：
• macOS/Linux：运行 curl -fsSL https://ai.google.dev/edge/litert-lm/install.sh | bash
• Windows（WSL）：同上；Windows原生版通过 GitHub Releases 下载 zip 包
• Android：集成 litertlm-android AAR 库（文档详尽，含Kotlin/Java示例）

体验Gemma-4只需一条命令：
litert-lm run --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm gemma-4-E2B-it.litertlm --prompt="请用中文写一首关于春天的五言绝句"