JoyAI-Echo 生成分钟级多镜头音频视频 - 开源模型 - AI社

楼主 3 天前

独立、仅用于推理的版本，可生成分钟级多镜头音频视频，具有精简的 DMD 生成器、配对的跨模态存储器和故事级一致性。

🎞️分钟级多镜头故事：从一个提示 JSON 生成一系列连贯的镜头。
⚡ DMD 提炼的少步推理：比原始流程快约 7.5 倍。
🔊音视频联合生成：一条管道即可生成同步的视频和音频。
🧠成对的跨模态记忆库：根据先前的视觉识别和语音背景，对每个新镜头进行条件化处理，以保持故事层面的一致性。

JoyAI-Echo 目前专注于文本转视频 (T2V)和多镜头长视频生成，并采用音视频配对存储技术。我们官方流程中使用的存储介质由生成的 T2V 镜头构成。

请注意，当前不支持图像转视频 (I2V)。

2 楼昨天 09:17

测试完，只能说能用，完全达不到生产级别：
优点：
1、人物第一次根据提示词生成出来，比较难保证效果。目前不支持参考图，所以不好把握
2、人物生成出来之后。后续同样的提示词能给比较稳定的保持一致性

缺点：
1、字幕混乱、场景画面也可能很混乱
2、音画完全不同步

所以生产级别基本不可用，做一些粗糙的内容可能还可以