论坛 图像/语音/视频 查看主题

InfiniteTalk 数字人

S sixchu · 1781682756 · 浏览 2 · 回复 0
分享
楼主 5 小时前

InfiniteTalk 7 个模型 · 各自干什么 + 多大 + 还能用在哪

核心认知:AI 生成视频不是一个模型搞定,而是一条流水线,每个模型是一个"工种"。就像拍电影有摄影/灯光/配音/剪辑。

总览表

# 模型文件 角色 大小(约) 复用性
umt5-xxl-enc-bf16 翻译官(文本编码器) ~11 GB 高·几乎所有 Wan 工作流共用
clip_vision_h 看图的眼睛(图像编码器) ~1.2 GB 高·所有图生视频/IPAdapter 类共用
wan2.1-i2v-14b-480p-Q8_0 发动机(底模) ~16 GB 高·所有 Wan2.1 图生视频共用
Wan2_1-InfiniteTalk_Single_Q8 对口型导演(适配器) ~2 GB 低·专给数字人口播
wav2vec2-chinese-base_fp16 听声音的耳朵(音频编码器) ~0.4 GB 中·所有音频驱动场景共用
Wan2_1_VAE_bf16 压缩/解压机(VAE) ~0.5 GB 高·所有 Wan2.1 工作流共用
lightx2v...rank64 涡轮增压(加速LoRA) ~0.6 GB 高·所有 Wan2.1 生成都能加速

合计约 32 GB。其中③底模和①文本编码器占了大头。

注:大小是公开发布值,下完后可在服务器 du -sh 文件名 核对。GGUF 的 Q8 是"8比特量化",比原始 fp16 小一半左右、质量几乎无损。


逐个详解(含其他用途)

① umt5-xxl-enc(文本编码器,~11GB)

数字人里:把提示词翻译成模型能懂的向量。
还能用在:几乎所有 Wan2.1 系列工作流——文生视频、图生视频、视频编辑,只要需要打提示词的都用它。下一次,多个工作流共享,不用重复下。

② clip_vision_h(图像编码器,~1.2GB)

数字人里:读懂人物图,保持长相一致。
还能用在:所有"图生视频"(把任意图变视频)、风格参考、IPAdapter(参考图控制风格)类工作流。是图像理解的通用件。

③ wan2.1-i2v-14b(底模,~16GB,最核心)

数字人里:真正生成动态画面的发动机。
还能用在任何 Wan2.1 图生视频任务——让一张风景图动起来、产品图转视频、动画分镜等。这是你这台服务器的"视频生成主力",装一次能干很多事。不止数字人。

④ Wan2_1-InfiniteTalk(口型适配器,~2GB)

数字人里:对口型的灵魂。
还能用在:基本专用于数字人/说话视频。换个场景(纯风景视频)用不上。这是 7 个里复用性最低的,但也是你这个工程的关键。

⑤ wav2vec2-chinese(音频编码器,~0.4GB)

数字人里:把语音拆成音素喂给口型。
还能用在:所有"音频驱动"场景——唱歌视频、其他口型/对话模型(MultiTalk、FantasyTalking 等)、音频情绪分析。只要涉及"按声音生成"就用得上。

⑥ Wan2_1_VAE(编解码器,~0.5GB)

数字人里:图像进出潜空间的压缩解压。
还能用在所有 Wan2.1 工作流的标配,文生视频/图生视频/编辑全都要。装一次永久共用。

⑦ lightx2v(加速LoRA,~0.6GB)

数字人里:把生成步数砍到 4-8 步,快好几倍。
还能用在任何 Wan2.1 生成任务都能挂上加速,不限于数字人。是个万能提速器,强烈建议常备。


流水线示意

文字 →①翻译    人物图 →②看懂    语音 →⑤听懂
                    ↓
   ⑥压缩进潜空间 → ③发动机画动态画面 + ④指挥对口型 → ⑥解压成视频
                    ↑
              ⑦全程加速

关键认知

  • 大部分模型是"共享基建":①②③⑥⑦ 这 5 个是所有 Wan2.1 工作流的通用件,装一次,以后做文生视频、图生视频、其他玩法都不用重下。真正"数字人专用"的只有 ④(InfiniteTalk) 和半个 ⑤(音频)。
  • 所以别觉得"为一个数字人下 32GB 亏":其实你顺手把整个 Wan2.1 视频生成的底座都装好了,后面扩展成本很低。
  • ③底模 + ④适配器缺一不可:③负责画面动,④负责按音频动嘴。InfiniteTalk 只是适配器,必须配③发动机。

补:TTS 模型(IndexTTS2,数字人之外的另一块)

上面 7 个是"图+音频→视频"的视频侧模型。要做"文稿→语音",还需 IndexTTS2 这一套 TTS 模型(独立于上面 7 个):

模型 角色 大小(约) 目录
IndexTeam/IndexTTS-2 整包 文稿→语音(克隆音色) ~8-10 GB custom_nodes/ComfyUI-IndexTTS2/checkpoints/
  • 作用:给一段参考音色 + 文稿文字 → 用该音色读出文稿的语音。是"任意文稿都能生成口播"的关键。
  • 注意:放在插件自己的 checkpoints 目录,不是 ComfyUI 的 models 目录。

完整流水线: 文稿 →[IndexTTS2]→ 语音 →[上面7个模型/InfiniteTalk]→ 口播视频。

#1

登录后即可发表回复

立即登录