让大模型推理快上加快：LMCache——专为LLM设计的极速KV缓存加速层

昆仑 AI

2026-06-13 0 5

你是否遇到过部署大语言模型（LLM）时，响应慢、显存吃紧、多轮对话反复计算历史KV缓存的困扰？LMCache 就是为此而生——它不是模型本身，而是一套轻量、高效、即插即用的“KV缓存管家”，能在不修改模型代码的前提下，显著提升推理速度、降低显存开销，并支持跨请求、跨会话甚至跨设备复用缓存。简单说，它让你的LLM“记住上次聊了什么”，且记得更快、更省、更智能。

核心功能

毫秒级KV缓存检索：基于内存+SSD混合存储策略，首次缓存后，后续相同Prompt的KV可直接加载，跳过重复计算，推理延迟最高降低70%
跨会话缓存共享：支持不同用户、不同会话间复用已生成的KV片段（如通用系统提示、常见知识块），大幅减少冗余计算
多后端硬件兼容：原生支持NVIDIA CUDA与AMD ROCm双生态，已在MI300X等新一代AI加速卡上完成深度优化，真正打破厂商锁定
无缝集成主流推理框架：开箱即用对接vLLM、HuggingFace Transformers、Text Generation Inference（TGI）等，仅需2行代码启用
智能缓存淘汰与压缩：自动识别高频/低频KV块，支持量化压缩（INT8/FP16）与LRU/LFU混合淘汰策略，兼顾速度与显存效率
多进程（MP）高并发架构：2026年4月发布的全新MP架构，专为MoE模型和Agent多轮任务设计，MoE推理吞吐提升达10倍

适合哪些人用

如果你正在做以下事情，LMCache 值得立刻尝试：
• LLM服务开发者：构建企业级API服务、聊天机器人或AI Agent平台，追求低延迟与高并发；
• 推理优化工程师：在有限GPU资源下提升QPS、降低单请求显存占用；
• 多模态/Agentic系统搭建者：需要稳定复用长上下文、多步决策中的中间状态；
• AMD GPU用户：长期受限于CUDA生态工具链，现在终于有高性能、开源、活跃维护的ROCm友好方案；
• 开源模型社区贡献者：想为Llama、Qwen、Phi等开源模型提供开箱即用的缓存加速能力。

快速上手

安装极其简单：

pip install lmcache

以vLLM为例，启用只需两步：

启动LMCache服务（支持本地/远程模式）：
lmcache_server --host 0.0.0.0 --port 6666 --cache-dir /path/to/cache
在vLLM启动命令中添加缓存配置：
vllm serve --model meta-llama/Llama-3-8b --enable-lmcache --lmcache-host localhost --lmcache-port 6666

无需修改模型权重或推理逻辑，5分钟即可实测提速。详细配置与高级用法（如SSD缓存路径、量化精度设置、分布式缓存集群）请参考官方文档。