你是否厌倦了等一张图渲染5分钟?是否在用Stable Diffusion时被显存爆满、推理慢、部署难反复劝退?NVIDIA最新开源的Sana(SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer)正是为此而生——它不是又一个“更大参数”的堆料模型,而是从底层算法到系统优化全面重构的下一代文生图引擎。通过创新的线性扩散Transformer(Linear DiT)架构与NVFP4低精度量化技术,Sana在保持4K级图像质量的同时,将推理速度提升至传统DiT模型的3–10倍,甚至能在单张RTX 3090(24GB)上实时生成1024×1024高清图,真正让高端生成能力“平民化”。
核心功能
- 极速高分辨率生成:原生支持1024×1024、2048×2048图像合成,推理延迟低至0.8秒/图(A100),比同类DiT模型快3–5倍
- 极致轻量部署:支持NVFP4(4-bit浮点)权重压缩,模型体积缩小75%,单卡3090即可运行完整Sana-1.5(含ControlNet插件)
- 开箱即用的多模态扩展:官方已集成ControlNet条件控制、Sana-Video视频生成、Sana-WM水印防护、Sol-RL强化学习微调框架,无需二次开发
- 工业级兼容生态:一键接入ComfyUI工作流、Hugging Face Spaces在线体验、SGLang大模型编排平台,支持TensorRT加速与分布式推理
- 中文友好开箱体验:Hugging Face模型库提供中文提示词优化版本(
sana-chinese-v1),文档站含完整中文教程与API示例 - 学术+工程双驱动设计:论文提出DEIS(Diffusion Exponential Integrator Solver)采样器,在更少步数(8–12步)下达成SOTA质量,显著降低算力消耗
适合哪些人用
如果你是——AI绘画创作者,需要快速迭代草图、批量生成商业级海报;中小企业开发者,想在低成本GPU服务器上部署私有文生图服务;高校研究者,关注扩散模型理论创新(如线性注意力机制、4-bit训练稳定性);或ComfyUI/SDXL工作流用户,希望无缝升级到更高清、更流畅的新一代引擎——Sana就是你现在最值得尝试的“下一代默认选择”。
快速上手
无需编译、不碰CUDA:只需3行命令即可启动本地服务:
pip install sana-models
git clone https://github.com/NVlabs/Sana && cd Sana
python demo/sana_demo.py --model sana_1_5 --resolution 1024 --prompt "中国山水画,水墨晕染,留白意境"
进阶用户推荐使用Hugging Face一键体验:https://huggingface.co/spaces/Efficient-Large-Model/Sana-1.5(免安装,打开即用);ComfyUI用户可直接安装ComfyUI_ExtraModels插件,自动加载Sana节点。
项目信息
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer
编程语言:Python|GitHub Star 数:6420|开源协议:Apache-2.0|GitHub 项目地址
如果你想要一个既快又稳、既强又省、既有前沿论文背书又能今天就跑起来的文生图新标杆——Sana不是“未来可期”,它已经来了。





