楼主昨天 20:58

ComfyUI 工程化实践:模型、显存、多卡、流水线集成

面向已经熟悉 ComfyUI 基本操作、希望将其纳入工业化产线的工程师,整理一组工程实践与决策依据,涵盖模型管理、显存治理、多卡部署、流水线集成、视频改写与防搬运策略等主题。

网络上关于 ComfyUI 的入门资料相当丰富 —— 部署一份本地环境、拖几个节点跑通一个示例工作流,在大多数教程里只需要十几分钟。但当目标从"演示能跑"切换到"稳定向业务持续供片"时,会遇到一连串教程很少覆盖的工程问题:显存峰值不可预测、模型版本与节点接口的隐性绑定、国内网络环境下的下载稳定性、多卡部署的进程边界、批量调度与失败恢复、配置分层与项目隔离、产物缓存一致性,等等。这些问题单独看都不复杂,叠加在一条真实产线上时却会显著拉长落地周期。

本文围绕这些工程问题展开,不再赘述基础部署与节点使用。

1. 定位

ComfyUI 是一个节点图驱动的扩散模型推理运行时:

提供可视化节点画布、Manager 插件生态、本地推理能力
不包含调度、监控、容错、批量任务管理等生产化能力

将其用于工业化产出时,通常需要在外层套一层 调度 + 状态管理 + 接口包装,使其作为渲染服务运行。

2. 节点图执行模型

ComfyUI 工作流在执行时被编译为一段静态计算图,每个节点对应一次 Python 函数调用,连线对应参数传递。

2.1 节点报错的语义

节点边框变红表示该节点在执行期抛出异常,根因可能位于上游(传入的参数为空或类型不匹配)。

典型实例:WanVideoSampler 报 start_step invalid literal for int(): ''。表面是采样器错误,根因为参数槽被 UI 操作置为空字符串,需在节点参数列表中将其填回合法值(例如 0)。

2.2 节点 mode

mode=0:启用
mode=2:禁用(画布灰显,不参与执行)

官方示例 workflow 常在画布上保留多组子图,只启用其中一组。排查时仅关注启用集合。

2.3 Get / Set 节点

GetNode / SetNode 在画布上实现跨区域引用,等价于全局变量,可降低连线复杂度,代价是阅读时需要在画布中定位对应的 SetNode。

2.4 工作流 JSON

工作流的真实载体是 .json 文件。建议:

每次有效修改另存为新版本
将 user/default/workflows/ 纳入版本控制
重要参数(steps、CFG、分辨率)用 Note 节点在画布上做内联说明
区分两种 JSON 格式:UI 保存格式包含画布元数据;API 格式仅包含执行所需的最小结构,/prompt 接口接受后者

3. 流水线集成

3.1 调用方式

ComfyUI 暴露 HTTP 接口,可作为后端渲染服务被外部调度:

import requests, uuid, time

def submit_workflow(api_url: str, workflow_api_json: dict) -> str:
    """提交 API 格式的 workflow, 返回 prompt_id"""
    client_id = str(uuid.uuid4())
    resp = requests.post(
        f"{api_url}/prompt",
        json={"prompt": workflow_api_json, "client_id": client_id},
        timeout=30,
    )
    return resp.json()["prompt_id"]

def wait_for_completion(api_url: str, prompt_id: str) -> dict:
    """轮询 /history 直到任务完成"""
    while True:
        r = requests.get(f"{api_url}/history/{prompt_id}").json()
        if prompt_id in r:
            return r[prompt_id]
        time.sleep(2)

实时进度可通过 /ws WebSocket 订阅。

3.2 参数化模板

将 workflow JSON 视为模板,在调用时根据 node_id 注入运行时参数:

def render(prompt_text: str, video_path: str, seed: int) -> str:
    wf = load_workflow_template("vace_v2v.json")
    wf["6"]["inputs"]["text"] = prompt_text
    wf["15"]["inputs"]["video"] = video_path
    wf["20"]["inputs"]["seed"] = seed
    pid = submit_workflow(API_URL, wf)
    return wait_for_completion(API_URL, pid)

3.3 工程化对比

关注点	单 workflow 操作	流水线集成
批量生成	手动改参数	API 注入
失败重试	整图重跑	检查产物存在性,只跑缺失节点
中间产物	共用 output 目录	每任务独立目录
进度展示	控制台日志	自定义 UI / SSE
多步骤组合	单图堆叠	分阶段独立可重跑

4. 模型管理与精度选择

4.1 目录约定

模型类型	推荐目录
SD / SDXL checkpoint	`models/checkpoints/`
视频扩散主模型	`models/diffusion_models/` 或 `models/unet/`
VAE	`models/vae/`
LoRA	`models/loras/`
文本编码器(T5 / UMT5 / CLIP)	`models/text_encoders/` 或 `models/clip/`
ControlNet	`models/controlnet/`
LLM 类节点(QwenVL 等)	由节点自身约定,常见为 `models/LLM/`

具体目录以 wrapper 文档为准。

4.2 模型文件名约定

Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
 │     │   │   │      │       └─ 容器格式
 │     │   │   │      └──────── 量化方式
 │     │   │   └─────────────── 精度
 │     │   └─────────────────── 参数规模
 │     └─────────────────────── 任务类型 (T2V/I2V/VACE_module 等)
 └───────────────────────────── 模型族与版本

要点:

任务前缀决定节点接口是否匹配,不可混用(VACE 模块必须配 T2V,不能配 I2V/TI2V/FLF2V)
gguf 格式需要专用加载节点(UnetLoaderGGUF 等),通用 ModelLoader 不识别
safetensors 是事实标准

4.3 精度选项对比(以 Wan2.1-14B 为参考)

精度	显存峰值	加载时间	推理速度	画质保留
bf16	~30 GB	60 s	1.0x	满血
fp8_e4m3fn	~15 GB	30 s	1.05x	≈99%
Q8_0 (gguf)	~14 GB	50 s	0.9x	≈97%
Q4_K_M (gguf)	~8 GB	40 s	0.85x	≈90%

工程化场景中 fp8_e4m3fn 通常具备最佳综合性价比。注意 fp8 原生算子要求 SM89 及以上(RTX 40 系、H100、L40),老卡上 fp8 会退化为软件路径。

5. 显存治理

5.1 峰值构成

近似公式:

显存峰值 ≈ 模型权重 + 中间激活 + VAE 解码缓冲
中间激活 ≈ (Batch × 帧数 × H × W × Channels × 4 bytes) × 网络深度系数

视频模型的"帧数"是激活规模的乘数;81 帧 480×832 比单图大约 80 倍。

5.2 治理手段(按性价比)

手段	节省幅度	代价	节点 / 参数
fp8 量化	-50% 权重	极小	`WanVideoModelLoader.quantization = fp8_e4m3fn`
BlockSwap(权重 offload CPU)	-30~60% 权重	推理慢 10~30%	`WanVideoBlockSwap.blocks_to_swap = 20~40`
降帧数	线性	视频更短	`VHS_LoadVideo.frame_load_cap`
降分辨率	二次方	画质降	上游 `ImageResize` 节点
关闭 batched_cfg	-50% 激活	慢 1.5x	`WanVideoSampler.batched_cfg = false`
VAE 分块解码	大幅	可能轻微接缝	`WanVideoDecode.enable_vae_tiling = true`
切换 scheduler	步数减半	略损质量	`scheduler = unipc, steps = 20`

5.3 OOM 排查顺序

1. WanVideoBlockSwap.blocks_to_swap = 20
2. WanVideoModelLoader.quantization = fp8_e4m3fn
3. VHS_LoadVideo.frame_load_cap = 49
4. 分辨率: 832×480 → 640×360
5. enable_vae_tiling = true
6. 帧数继续降至 33

实践中前三步可解决绝大多数 OOM。

5.4 监控

watch -n 1 nvidia-smi
# 或
nvtop

6. 多卡部署

6.1 单进程单卡

PyTorch 进程在启动时绑定一张卡。ComfyUI 内部及多数 custom node 硬编码 cuda:0,因此一个 ComfyUI 进程使用一张卡,不能在运行期跨卡。

6.2 多实例部署

# GPU 0
CUDA_VISIBLE_DEVICES=0 python main.py --listen 0.0.0.0 --port 8188 &

# GPU 1
CUDA_VISIBLE_DEVICES=1 python main.py --listen 0.0.0.0 --port 8189 &

也可使用启动参数 --cuda-device N,效果等价。

闲置时 Python 进程本身占用很小(数百 MB),模型仅在采样调用时加载到显存,任务完成后由 ComfyUI 自行 unload。多实例不会等量占用显存。

6.3 流水线层调度

外层调度器维护多个 worker URL,轮询空闲并下发:

WORKERS = [
    {"url": "http://server:8188", "busy": False},
    {"url": "http://server:8189", "busy": False},
]

def submit_to_idle_worker(workflow):
    while True:
        for w in WORKERS:
            if not w["busy"]:
                w["busy"] = True
                pid = submit_workflow(w["url"], workflow)
                threading.Thread(target=poll_and_release,
                                 args=(w, pid)).start()
                return
        time.sleep(1)

7. 国内网络与模型下载

7.1 下载源对比

源	特点	适用
HuggingFace 原站	全、新、国内访问慢	海外节点
`hf-mirror.com`	HF 镜像,有时不稳	国内,小文件应急
ModelScope(魔搭)	国内 CDN,稳定	国内首选

7.2 ModelScope CLI

pip install modelscope

# 下载整个 repo
modelscope download --model Qwen/Qwen3-VL-8B-Instruct \
  --local_dir ~/comfyui/models/LLM/Qwen-VL/Qwen3-VL-8B-Instruct

# 仅下指定文件
modelscope download --model Kijai/WanVideo_comfy \
  Wan2_1-T2V-14B_fp8_e4m3fn.safetensors \
  Wan2_1-VACE_module_14B_fp8_e4m3fn.safetensors \
  --local_dir ~/comfyui/models/diffusion_models/WanVideo

魔搭与 HF 仓库内文件名与内容一致,下载后可被 ComfyUI 节点直接识别。

7.3 HF 镜像启动

部分 custom node 内部硬编码 HF 接口,可通过环境变量切换:

export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_ENABLE_HF_TRANSFER=0   # 避免 xet 协议在国内的稳定性问题
python main.py --listen 0.0.0.0

7.4 xet 协议问题

HF 部分大文件通过 cas-bridge.xethub.hf.co 提供,该协议在国内表现不稳定,常见症状为 Read timed out + 无限重试。处理方式:终止进程后改走 ModelScope 重新下载。

8. 数字人口播流水线参考实现

将"文稿 → 数字人 + 配图 + 字幕 + 完整视频"拆为 8 个阶段,顺序执行,每阶段独立可重跑。

storyboard  → LLM 分镜
   ↓
images      → 文生图(每段一张)
   ↓
tts         → 文本合成语音
   ↓
align       → WhisperX 字级强制对齐
   ↓
durations   → 计算每段实际时长
   ↓
human       → ComfyUI: SadTalker / EchoMimic / LatentSync
   ↓
background  → ComfyUI: 文生视频(Wan) 或 ffmpeg 推拉镜头(kenburns)
   ↓
compose     → ffmpeg 合成最终 MP4

8.1 阶段独立性

每阶段输出落盘,下一阶段读盘消费。优点:

中间故障可从上一阶段断点续跑
单步重试不影响已完成产物
调试时可单独验证某一阶段

8.2 配置分层

全局 config.yaml 提供默认值,项目目录下的 project.json 覆盖项目特定参数:

def apply_project_config(global_cfg, project_dir):
    project_json = project_dir / "project.json"
    if not project_json.exists():
        return global_cfg
    proj = json.load(open(project_json))
    if proj.get("mode"):
        global_cfg.background.mode = proj["mode"]
    if proj.get("style_hint"):
        global_cfg.storyboard.style_hint = proj["style_hint"]
    return global_cfg

8.3 进度反馈

长任务需多层反馈:

服务进程 stdout 结构化日志
Web 端 SSE 推送
批量任务浮动进度条(跨页面)

8.4 LLM JSON 容错

LLM 输出 JSON 偶发包含控制字符、尾随逗号、注释、非闭合引号。在解析前进行规范化:

def try_repair_json(s: str) -> str:
    s = re.sub(r"[\x00-\x1f\x7f]", " ", s)             # 控制字符
    s = re.sub(r",\s*([}\]])", r"\1", s)               # 尾随逗号
    s = re.sub(r"//.*?$|/\*.*?\*/", "", s, flags=re.S | re.M)
    return s

对损坏样本,实测修复率 95%+。

8.5 时长来源

durations 阶段以 TTS 产物的实际时长为准,而非 LLM 估算值。后续 human / background / compose 阶段共用该时长,避免音视频错位。

9. 视频改写 (V2V) 与防搬运策略

9.1 平台查重信号

信号	权重	对抗手段
音频指纹(MFCC / Chromaprint)	极强	替换配音
ASR 文本完整匹配	极强	替换配音
关键帧 pHash	中	画面扰动
首尾 N 秒指纹	中	首尾改动
文件 MD5 / 容器指纹	弱	重编码

替换配音 + 重编码 + 轻度画面扰动通常足以规避一般搬运判定。重新生成画面只在"必须换人物 / 换产品"的场景下需要。

9.2 纯 ffmpeg 组合滤镜

ffmpeg -i orig.mp4 \
  -vf "crop=iw*0.96:ih*0.96,\
       scale=720:1280,\
       eq=brightness=0.02:contrast=1.03:saturation=1.05,\
       noise=alls=6:allf=t,\
       vignette=PI/8" \
  -filter_complex "[0:a]atempo=1.02[a]" \
  -map 0:v -map "[a]" \
  -c:v libx264 -preset medium -crf 22 \
  -c:a aac -b:a 128k \
  -movflags +faststart \
  out.mp4

包含动作:

边缘裁剪 4% 后回缩(改变 pHash 采样窗口)
亮度 / 对比度 / 饱和度小幅调整
微噪点
暗角
音频变速 1.02x
全量重编码

实测扰动前后帧 pHash 汉明距离从 0~2 提升至 8~12+,远超平台同视频判定阈值(常见为 ≤ 6)。

9.3 模型 V2V 路线(Wan 2.1 + VACE)

当确实需要替换主体人物或场景时,使用 Wan 2.1 主模型 + VACE 模块的 V2V 工作流。关键约束:

VACE 必须配套 T2V 主模型,不能用 I2V / TI2V / FLF2V
在 40 GB 卡上跑 14B + VACE_module_14B,建议 WanVideoBlockSwap.blocks_to_swap = 20,fp8_e4m3fn 精度,49 帧 480p
1.3B 版适合短片验证,质量差距明显小于 14B
CFG 经验值 4~5;过高画面 AI 感强,过低则与原片过于接近
Wan 1.3B 单次输出 5 秒左右为甜点,长视频建议分段生成后用 ffmpeg 拼接

9.4 Wan 2.2 满血说明

Wan 2.2-A14B 采用 MoE 双专家结构,需同时下载 HIGH / LOW 两个 14B 权重文件,采样过程在 sigma 分界点自动切换专家。截至发文,VACE 模块对 Wan 2.2 的官方支持尚不完整,Wan 2.1 T2V-14B + VACE_module_14B 仍是当前最稳的"参考视频驱动 + 满血质量"组合。

10. 常见问题清单

按出现频率与影响排序:

HuggingFace xet 协议在国内无限重试卡死 — 终止进程,切 ModelScope
节点参数空字符串导致 int() 转换失败 — 填回默认值
VACE 与 I2V 混搭加载失败 — 文件名需带 t2v + VACE_module
gguf 文件用 safetensors 加载节点报错 — 使用 GGUF 专用 loader
fp8 在 SM89 以下显卡退化 — 改 bf16 或更小模型
首次模型加载耗时几分钟 — 正常,非死锁
切换 GPU 后仍 OOM — 同型号卡显存峰值不变,需同时降参数
Manager 卸插件误删共享依赖 — 卸载前确认依赖图
triton / xformers / flash-attn 版本不匹配 — 以 wrapper requirements.txt 为准
UI 保存 JSON 与 API 格式 JSON 不通用 — /prompt 接口需 API 格式
VHS_LoadVideo 路径解析以 ComfyUI 根目录为基 — 用相对路径或 input/ 下绝对路径
同名产物浏览器缓存命中旧版本 — URL 附 ?v=<mtime>
WhisperX 字级时间戳偶现 None — 必须空值兜底
TTS 实际时长偏离估算 — 以产物 ffprobe 时长为准
LLM JSON 返回含控制字符 — 规范化后再解析
Ctrl+C 无法中止子进程 — 用 PID + SIGKILL
Wan 2.2 满血只下了一个专家 — 必须下 HIGH + LOW 两份
默认仅监听 127.0.0.1 — 加 --listen 0.0.0.0 允许局域网访问
VAE 全量解码 OOM — 启用 enable_vae_tiling
workflow 未保存即刷新 — ComfyUI 不自动保存,需手动 Save / Export

附录:参考资源

ComfyUI 主仓:https://github.com/comfyanonymous/ComfyUI
ComfyUI-WanVideoWrapper (Kijai):https://github.com/kijai/ComfyUI-WanVideoWrapper
ComfyUI-Manager:https://github.com/ltdrdata/ComfyUI-Manager
ModelScope:https://modelscope.cn
HF Mirror:https://hf-mirror.com
工作流示例:https://openart.ai/workflows