InfiniteTalk 7 个模型 · 各自干什么 + 多大 + 还能用在哪
核心认知:AI 生成视频不是一个模型搞定,而是一条流水线,每个模型是一个"工种"。就像拍电影有摄影/灯光/配音/剪辑。
总览表
| # | 模型文件 | 角色 | 大小(约) | 复用性 |
|---|---|---|---|---|
| ① | umt5-xxl-enc-bf16 | 翻译官(文本编码器) | ~11 GB | 高·几乎所有 Wan 工作流共用 |
| ② | clip_vision_h | 看图的眼睛(图像编码器) | ~1.2 GB | 高·所有图生视频/IPAdapter 类共用 |
| ③ | wan2.1-i2v-14b-480p-Q8_0 | 发动机(底模) | ~16 GB | 高·所有 Wan2.1 图生视频共用 |
| ④ | Wan2_1-InfiniteTalk_Single_Q8 | 对口型导演(适配器) | ~2 GB | 低·专给数字人口播 |
| ⑤ | wav2vec2-chinese-base_fp16 | 听声音的耳朵(音频编码器) | ~0.4 GB | 中·所有音频驱动场景共用 |
| ⑥ | Wan2_1_VAE_bf16 | 压缩/解压机(VAE) | ~0.5 GB | 高·所有 Wan2.1 工作流共用 |
| ⑦ | lightx2v...rank64 | 涡轮增压(加速LoRA) | ~0.6 GB | 高·所有 Wan2.1 生成都能加速 |
合计约 32 GB。其中③底模和①文本编码器占了大头。
注:大小是公开发布值,下完后可在服务器
du -sh 文件名核对。GGUF 的 Q8 是"8比特量化",比原始 fp16 小一半左右、质量几乎无损。
逐个详解(含其他用途)
① umt5-xxl-enc(文本编码器,~11GB)
数字人里:把提示词翻译成模型能懂的向量。
还能用在:几乎所有 Wan2.1 系列工作流——文生视频、图生视频、视频编辑,只要需要打提示词的都用它。下一次,多个工作流共享,不用重复下。
② clip_vision_h(图像编码器,~1.2GB)
数字人里:读懂人物图,保持长相一致。
还能用在:所有"图生视频"(把任意图变视频)、风格参考、IPAdapter(参考图控制风格)类工作流。是图像理解的通用件。
③ wan2.1-i2v-14b(底模,~16GB,最核心)
数字人里:真正生成动态画面的发动机。
还能用在:任何 Wan2.1 图生视频任务——让一张风景图动起来、产品图转视频、动画分镜等。这是你这台服务器的"视频生成主力",装一次能干很多事。不止数字人。
④ Wan2_1-InfiniteTalk(口型适配器,~2GB)
数字人里:对口型的灵魂。
还能用在:基本专用于数字人/说话视频。换个场景(纯风景视频)用不上。这是 7 个里复用性最低的,但也是你这个工程的关键。
⑤ wav2vec2-chinese(音频编码器,~0.4GB)
数字人里:把语音拆成音素喂给口型。
还能用在:所有"音频驱动"场景——唱歌视频、其他口型/对话模型(MultiTalk、FantasyTalking 等)、音频情绪分析。只要涉及"按声音生成"就用得上。
⑥ Wan2_1_VAE(编解码器,~0.5GB)
数字人里:图像进出潜空间的压缩解压。
还能用在:所有 Wan2.1 工作流的标配,文生视频/图生视频/编辑全都要。装一次永久共用。
⑦ lightx2v(加速LoRA,~0.6GB)
数字人里:把生成步数砍到 4-8 步,快好几倍。
还能用在:任何 Wan2.1 生成任务都能挂上加速,不限于数字人。是个万能提速器,强烈建议常备。
流水线示意
文字 →①翻译 人物图 →②看懂 语音 →⑤听懂
↓
⑥压缩进潜空间 → ③发动机画动态画面 + ④指挥对口型 → ⑥解压成视频
↑
⑦全程加速
关键认知
- 大部分模型是"共享基建":①②③⑥⑦ 这 5 个是所有 Wan2.1 工作流的通用件,装一次,以后做文生视频、图生视频、其他玩法都不用重下。真正"数字人专用"的只有 ④(InfiniteTalk) 和半个 ⑤(音频)。
- 所以别觉得"为一个数字人下 32GB 亏":其实你顺手把整个 Wan2.1 视频生成的底座都装好了,后面扩展成本很低。
- ③底模 + ④适配器缺一不可:③负责画面动,④负责按音频动嘴。InfiniteTalk 只是适配器,必须配③发动机。
补:TTS 模型(IndexTTS2,数字人之外的另一块)
上面 7 个是"图+音频→视频"的视频侧模型。要做"文稿→语音",还需 IndexTTS2 这一套 TTS 模型(独立于上面 7 个):
| 模型 | 角色 | 大小(约) | 目录 |
|---|---|---|---|
| IndexTeam/IndexTTS-2 整包 | 文稿→语音(克隆音色) | ~8-10 GB | custom_nodes/ComfyUI-IndexTTS2/checkpoints/ |
- 作用:给一段参考音色 + 文稿文字 → 用该音色读出文稿的语音。是"任意文稿都能生成口播"的关键。
- 注意:放在插件自己的 checkpoints 目录,不是 ComfyUI 的 models 目录。
完整流水线: 文稿 →[IndexTTS2]→ 语音 →[上面7个模型/InfiniteTalk]→ 口播视频。