楼主
3 天前
https://github.com/jd-opensource/JoyAI-Echo
独立、仅用于推理的版本,可生成分钟级多镜头音频视频,具有精简的 DMD 生成器、配对的跨模态存储器和故事级一致性。
🎞️分钟级多镜头故事:从一个提示 JSON 生成一系列连贯的镜头。
⚡ DMD 提炼的少步推理:比原始流程快约 7.5 倍。
🔊音视频联合生成:一条管道即可生成同步的视频和音频。
🧠成对的跨模态记忆库:根据先前的视觉识别和语音背景,对每个新镜头进行条件化处理,以保持故事层面的一致性。
JoyAI-Echo 目前专注于文本转视频 (T2V)和多镜头长视频生成,并采用音视频配对存储技术。我们官方流程中使用的存储介质由生成的 T2V 镜头构成。
请注意,当前不支持图像转视频 (I2V)。