论坛 开源模型 查看主题

JoyAI-Echo 生成分钟级多镜头音频视频

S sixchu · 1781090731 · 浏览 8 · 回复 1
分享
楼主 3 天前

https://github.com/jd-opensource/JoyAI-Echo

独立、仅用于推理的版本,可生成分钟级多镜头音频视频,具有精简的 DMD 生成器、配对的跨模态存储器和故事级一致性。

🎞️分钟级多镜头故事:从一个提示 JSON 生成一系列连贯的镜头。
⚡ DMD 提炼的少步推理:比原始流程快约 7.5 倍。
🔊音视频联合生成:一条管道即可生成同步的视频和音频。
🧠成对的跨模态记忆库:根据先前的视觉识别和语音背景,对每个新镜头进行条件化处理,以保持故事层面的一致性。

JoyAI-Echo 目前专注于文本转视频 (T2V)和多镜头长视频生成,并采用音视频配对存储技术。我们官方流程中使用的存储介质由生成的 T2V 镜头构成。

请注意,当前不支持图像转视频 (I2V)。

#1
2 楼 昨天 09:17

测试完,只能说能用,完全达不到生产级别:
优点:
1、人物第一次根据提示词生成出来,比较难保证效果。目前不支持参考图,所以不好把握
2、人物生成出来之后。后续同样的提示词能给比较稳定的保持一致性

缺点:
1、字幕混乱、场景画面也可能很混乱
2、音画完全不同步

所以生产级别基本不可用,做一些粗糙的内容可能还可以

#2

登录后即可发表回复

立即登录