比vLLM更快、比TensorRT-LLM更易用：专为AI智能体（Agent）打造的超高速大模型推理引擎

昆仑 AI

2026-05-10 0 6

你是否遇到过这样的困境：部署一个需要频繁调用大模型的AI智能体（Agent）时，推理延迟高、吞吐上不去、GPU显存浪费严重，而切换到TensorRT-LLM又得重写并行逻辑、调试成本陡增？TokenSpeed正是为此而生——它不是另一个“通用推理框架”，而是国内团队LightSeek聚焦「智能体真实负载」深度优化的下一代LLM推理引擎。在B200 GPU上实测，其对Kimi K2.5等长上下文、高并发、低延迟敏感的Agent任务，性能显著超越当前主流方案，真正实现“Token以光速抵达”。

核心功能

面向Agent的专用调度器：独创C++控制平面+Python执行平面架构，将请求生命周期、KV缓存归属与计算/通信重叠时机建模为类型安全的有限状态机，从编译期就杜绝KV资源误释放或竞争，大幅提升高并发下的稳定性与资源利用率。
零手写并行的本地SPMD建模层：用户只需在模型模块边界添加轻量级放置标注（如@shard("tp")），静态编译器自动推导并生成最优集体通信代码，彻底告别手动编写AllReduce/AllGather逻辑的繁琐与易错。
业界最快的MLA（多头潜在注意力）内核之一：针对Blackwell架构深度优化，尤其适配Agent场景中常见的短prompt+长response、动态batch size等非均匀访问模式，在K2.5等模型上实测吞吐提升达35%以上。
SMG集成的AsyncLLM入口：CPU侧请求处理开销极低，支持毫秒级请求接入与响应，让Agent的决策链路不再被推理引擎拖慢节奏。
插件化分层内核系统：提供统一、可移植的公共API接口和中央内核注册表，开发者可轻松替换/扩展Attention、FFN等关键算子，无需修改调度与内存管理逻辑。
生产就绪的设计哲学：从第一天起就以“可监控、可回滚、可灰度”为目标，内置细粒度指标埋点与错误溯源机制，完美契合企业级AI服务的SLA要求。

适合哪些人用

如果你正在构建或运维以下类型的系统，TokenSpeed值得立刻关注：
• 开发复杂AI智能体（如多步骤规划、工具调用、自主记忆Agent）的研发工程师；
• 需要在单卡或多卡B200/H100集群上最大化LLM吞吐与P99延迟的MLOps平台负责人；
• 评估国产大模型（Qwen、DeepSeek、Kimi、MiniMax等）生产落地效果的算法架构师；
• 希望在不牺牲开发效率的前提下，逼近TensorRT-LLM极限性能的前沿技术团队。

快速上手

目前项目处于Preview阶段，已支持Kimi K2.5等主流模型在B200上的高性能部署。安装仅需三步：

确保环境：CUDA 12.4+、PyTorch 2.3+、NVIDIA驱动≥535
克隆仓库：git clone https://github.com/lightseekorg/tokenspeed && cd tokenspeed
安装依赖并启动服务：pip install -e . && python -m tokenspeed.entrypoints.serve --model kimi/k2.5 --tensor-parallel-size 2

随后即可通过标准OpenAI兼容API（http://localhost:8000/v1/chat/completions）调用，无缝接入现有Agent框架（如LangChain、LlamaIndex）。