DeepSpec 是由深度求索(DeepSeek)团队开源的一套端到端代码库,专门用于训练和评估“推测解码”(Speculative Decoding)中的关键组件——草案模型(Draft Model)。在大语言模型推理加速领域,推测解码是一种高效策略:让一个轻量级草案模型先“猜”出若干候选词元,再由主模型快速验证,从而显著提升生成速度。DeepSpec 正是为系统性研究、复现和优化这一技术而生,填补了当前开源生态中缺乏统一、可复现、全流程支持工具的空白。
核心功能
- 全流程数据准备管道:自动下载主流基准提示集(如Alpaca、UltraFeedback),调用目标大模型(如Qwen3-4B)批量重生成标准答案,并构建高性能缓存,支撑后续训练与评估
- 多算法草案模型实现:内置DSpark、Medusa、Eagle等主流推测解码架构,支持灵活切换与对比实验,所有模型均基于PyTorch实现,结构清晰、易于修改
- 分布式训练支持:提供开箱即用的多GPU训练脚本(
train.sh),自动适配可见GPU数量,配合配置化设计(YAML/Python),轻松启动不同规模草案模型训练 - 标准化评估体系:集成接受率(Acceptance Rate)、加速比(Speedup)、token吞吐量等核心指标,覆盖MMLU、GSM8K、HumanEval等主流评测任务,结果可直接横向对比
- 配置驱动、模块解耦:从数据路径、模型结构、训练超参到评估协议,全部通过配置文件定义,便于复现实验、开展消融研究或迁移至自有模型
- 生产就绪的缓存管理:针对TB级目标输出缓存设计内存映射与分片加载机制,在保证效率的同时降低单机内存压力,兼顾学术研究与工程落地需求
适合哪些人用
DeepSpec 主要面向三类中文技术用户:一是大模型推理优化方向的研究者与工程师,希望深入理解或改进推测解码机制;二是高校实验室与AI初创团队,需要可复现、有文档、带完整pipeline的开源基线工具;三是对LLM加速技术感兴趣的进阶开发者,想动手训练一个专属草案模型,而不必从零搭建数据流与训练框架。它不面向纯应用层用户,但为所有关注“如何让大模型跑得更快更省”的技术实践者提供了坚实底座。
快速上手
只需三步即可启动本地实验:
- 环境准备:确保已安装Python 3.9+及CUDA环境,运行
pip install -r requirements.txt安装依赖(含vLLM、transformers、torch等) - 数据生成:按
scripts/data/README.md指引,部署目标模型服务(如vLLM),执行数据下载、重生成与缓存构建(注意:默认Qwen3-4B缓存约38TB,请根据磁盘空间调整数据子集) - 一键训练与评估:运行
bash scripts/train/train.sh config/dspark/dspark_qwen3_4b.py启动训练;完成后执行bash scripts/eval/eval.sh即可获得完整评测报告
项目提供详尽的中文注释与配置示例,首次使用建议从精简版配置(如小规模数据+1B草案模型)开始验证流程。
项目信息
DeepSpec: a full-stack codebase for training and evaluating speculative decoding algorithms
483
Stars
29
Forks
Python
MIT
编程语言:Python|Star 数:483|开源协议:MIT|GitHub 项目地址
如果你正苦于复现论文中的推测解码效果、想为自家大模型定制加速草案、或渴望一个不黑盒、可调试、全链路开源的推理优化实验平台——DeepSpec 就是你值得第一时间尝试的专业级工具箱。


