楼主 5 小时前

InfiniteTalk 7 个模型 · 各自干什么 + 多大 + 还能用在哪

核心认知：AI 生成视频不是一个模型搞定，而是一条流水线，每个模型是一个"工种"。就像拍电影有摄影/灯光/配音/剪辑。

总览表

#	模型文件	角色	大小(约)	复用性
①	umt5-xxl-enc-bf16	翻译官(文本编码器)	~11 GB	高·几乎所有 Wan 工作流共用
②	clip_vision_h	看图的眼睛(图像编码器)	~1.2 GB	高·所有图生视频/IPAdapter 类共用
③	wan2.1-i2v-14b-480p-Q8_0	发动机(底模)	~16 GB	高·所有 Wan2.1 图生视频共用
④	Wan2_1-InfiniteTalk_Single_Q8	对口型导演(适配器)	~2 GB	低·专给数字人口播
⑤	wav2vec2-chinese-base_fp16	听声音的耳朵(音频编码器)	~0.4 GB	中·所有音频驱动场景共用
⑥	Wan2_1_VAE_bf16	压缩/解压机(VAE)	~0.5 GB	高·所有 Wan2.1 工作流共用
⑦	lightx2v...rank64	涡轮增压(加速LoRA)	~0.6 GB	高·所有 Wan2.1 生成都能加速

合计约 32 GB。其中③底模和①文本编码器占了大头。

注：大小是公开发布值，下完后可在服务器 du -sh 文件名 核对。GGUF 的 Q8 是"8比特量化"，比原始 fp16 小一半左右、质量几乎无损。

数字人里：把提示词翻译成模型能懂的向量。
还能用在：几乎所有 Wan2.1 系列工作流——文生视频、图生视频、视频编辑，只要需要打提示词的都用它。下一次，多个工作流共享，不用重复下。

数字人里：读懂人物图，保持长相一致。
还能用在：所有"图生视频"(把任意图变视频)、风格参考、IPAdapter(参考图控制风格)类工作流。是图像理解的通用件。

数字人里：真正生成动态画面的发动机。
还能用在：任何 Wan2.1 图生视频任务——让一张风景图动起来、产品图转视频、动画分镜等。这是你这台服务器的"视频生成主力"，装一次能干很多事。不止数字人。

数字人里：对口型的灵魂。
还能用在：基本专用于数字人/说话视频。换个场景(纯风景视频)用不上。这是 7 个里复用性最低的，但也是你这个工程的关键。

数字人里：把语音拆成音素喂给口型。
还能用在：所有"音频驱动"场景——唱歌视频、其他口型/对话模型(MultiTalk、FantasyTalking 等)、音频情绪分析。只要涉及"按声音生成"就用得上。

数字人里：图像进出潜空间的压缩解压。
还能用在：所有 Wan2.1 工作流的标配，文生视频/图生视频/编辑全都要。装一次永久共用。

数字人里：把生成步数砍到 4-8 步，快好几倍。
还能用在：任何 Wan2.1 生成任务都能挂上加速，不限于数字人。是个万能提速器，强烈建议常备。

文字 →①翻译    人物图 →②看懂    语音 →⑤听懂
                    ↓
   ⑥压缩进潜空间 → ③发动机画动态画面 + ④指挥对口型 → ⑥解压成视频
                    ↑
              ⑦全程加速

大部分模型是"共享基建"：①②③⑥⑦ 这 5 个是所有 Wan2.1 工作流的通用件，装一次，以后做文生视频、图生视频、其他玩法都不用重下。真正"数字人专用"的只有 ④(InfiniteTalk) 和半个 ⑤(音频)。
所以别觉得"为一个数字人下 32GB 亏"：其实你顺手把整个 Wan2.1 视频生成的底座都装好了，后面扩展成本很低。
③底模 + ④适配器缺一不可：③负责画面动，④负责按音频动嘴。InfiniteTalk 只是适配器，必须配③发动机。

上面 7 个是"图+音频→视频"的视频侧模型。要做"文稿→语音",还需 IndexTTS2 这一套 TTS 模型(独立于上面 7 个):

模型	角色	大小(约)	目录
IndexTeam/IndexTTS-2 整包	文稿→语音(克隆音色)	~8-10 GB	`custom_nodes/ComfyUI-IndexTTS2/checkpoints/`

完整流水线: 文稿 →[IndexTTS2]→ 语音 →[上面7个模型/InfiniteTalk]→ 口播视频。