DeepSpec：专为“推测解码”量身打造的开源训练与评测工具箱

昆仑开源易选

2026-06-27 0 3

DeepSpec 是由深度求索（DeepSeek）团队开源的一套端到端代码库，专门用于训练和评估“推测解码”（Speculative Decoding）中的关键组件——草案模型（Draft Model）。在大语言模型推理加速领域，推测解码是一种高效策略：让一个轻量级草案模型先“猜”出若干候选词元，再由主模型快速验证，从而显著提升生成速度。DeepSpec 正是为系统性研究、复现和优化这一技术而生，填补了当前开源生态中缺乏统一、可复现、全流程支持工具的空白。

核心功能

全流程数据准备管道：自动下载主流基准提示集（如Alpaca、UltraFeedback），调用目标大模型（如Qwen3-4B）批量重生成标准答案，并构建高性能缓存，支撑后续训练与评估
多算法草案模型实现：内置DSpark、Medusa、Eagle等主流推测解码架构，支持灵活切换与对比实验，所有模型均基于PyTorch实现，结构清晰、易于修改
分布式训练支持：提供开箱即用的多GPU训练脚本（train.sh），自动适配可见GPU数量，配合配置化设计（YAML/Python），轻松启动不同规模草案模型训练
标准化评估体系：集成接受率（Acceptance Rate）、加速比（Speedup）、token吞吐量等核心指标，覆盖MMLU、GSM8K、HumanEval等主流评测任务，结果可直接横向对比
配置驱动、模块解耦：从数据路径、模型结构、训练超参到评估协议，全部通过配置文件定义，便于复现实验、开展消融研究或迁移至自有模型
生产就绪的缓存管理：针对TB级目标输出缓存设计内存映射与分片加载机制，在保证效率的同时降低单机内存压力，兼顾学术研究与工程落地需求

适合哪些人用

DeepSpec 主要面向三类中文技术用户：一是大模型推理优化方向的研究者与工程师，希望深入理解或改进推测解码机制；二是高校实验室与AI初创团队，需要可复现、有文档、带完整pipeline的开源基线工具；三是对LLM加速技术感兴趣的进阶开发者，想动手训练一个专属草案模型，而不必从零搭建数据流与训练框架。它不面向纯应用层用户，但为所有关注“如何让大模型跑得更快更省”的技术实践者提供了坚实底座。

快速上手

只需三步即可启动本地实验：

环境准备：确保已安装Python 3.9+及CUDA环境，运行 pip install -r requirements.txt 安装依赖（含vLLM、transformers、torch等）
数据生成：按 scripts/data/README.md 指引，部署目标模型服务（如vLLM），执行数据下载、重生成与缓存构建（注意：默认Qwen3-4B缓存约38TB，请根据磁盘空间调整数据子集）
一键训练与评估：运行 bash scripts/train/train.sh config/dspark/dspark_qwen3_4b.py 启动训练；完成后执行 bash scripts/eval/eval.sh 即可获得完整评测报告

项目提供详尽的中文注释与配置示例，首次使用建议从精简版配置（如小规模数据+1B草案模型）开始验证流程。