JoyAI-Echo 是京东开源团队推出的首个面向实际落地的长时序音视频生成工具,专为突破当前AIGC领域“短平快”瓶颈而生——它不只生成几秒GIF或10秒短视频,而是真正支持分钟级(最长5分钟)、多镜头、强叙事连贯性的端到端音频驱动视频生成。解决了AI视频普遍存在的“开头精彩、中间崩坏、结尾失联”的一致性难题,让故事有起承转合,让画面有呼吸节奏。
核心功能
- 分钟级连续生成:单次推理即可输出长达5分钟的高清视频(1080p),告别拼接剪辑,原生支持长时序时空建模
- 语音精准驱动+唇形同步:输入一段人声音频(如播客、配音稿、会议录音),自动匹配自然口型、微表情与肢体动作,无需逐帧对齐
- 多镜头智能调度:基于故事逻辑自动切换景别(全景/中景/特写)、运镜(推拉摇移)和角色视角,模拟专业影视分镜思维
- 跨模态记忆机制:内置“视觉-听觉联合记忆单元”,确保人物衣着、场景布局、光影风格在整段视频中长期稳定,避免常见AI视频的“前后不认人”问题
- 轻量高效推理:采用蒸馏优化的DMD(Diffusion-Memory-Dynamics)架构,在单张A100/A800显卡上即可完成5分钟视频生成(约2–4小时,视分辨率而定)
- 开箱即用的中文友好支持:预置中文语音识别(ASR)与文本转语音(TTS)接口,适配普通话播客、电商讲解、知识短视频等本土高频场景
适合哪些人用
如果你是内容创作者、教育工作者、电商运营、AI研究员或技术爱好者,JoyAI-Echo 正是为你准备的:
• 想批量制作课程讲解、产品介绍、新闻摘要类长视频,却苦于剪辑耗时、出镜成本高的自媒体人;
• 需要快速将内部会议录音、培训文档转化为可视化视频素材的企业培训师;
• 关注多模态大模型落地能力,希望在本地复现前沿长视频生成技术的算法工程师;
• 或只是想试试“用一段声音,生成一部微电影”的科技发烧友——它足够直观,也足够硬核。
快速上手
项目为纯推理版(inference-only),无训练依赖,安装极简:
- 确保环境:Python 3.11 + PyTorch 2.8 + CUDA 12.8(推荐NVIDIA A100/A800/RTX 4090)
- 克隆仓库:
git clone https://github.com/jd-opensource/JoyAI-Echo.git && cd JoyAI-Echo - 安装依赖:
pip install -r requirements.txt - 从Hugging Face下载预训练权重,放入
checkpoints/目录 - 运行示例:
python generate.py --audio_path samples/input.wav --output_dir outputs/ --duration_min 3(生成3分钟视频)
首次运行会自动加载模型并缓存,后续生成提速明显。详细参数说明见项目 README.md 中的 Quickstart 章节。
项目信息
JoyAI-Echo: Pushing the Frontier of Long Audio-Visual Generation
488
Stars
30
Forks
Python
NOASSERTION
编程语言:Python|GitHub Star 数:488(持续快速增长中)|开源协议:未明确声明(NOASSERTION)|GitHub 项目地址
国产长视频生成迈出关键一步——它不炫技、不堆参数,而是以扎实的跨模态记忆设计和分钟级稳定性,真正把AI视频从“玩具”推向“工具”。



