解锁文本生成视频的强大能力:阿里巴巴Wanx-8G模型解析

CN
ComfyUI.org
2025-04-01 14:28:28

使用阿里巴巴的Wanx-8G模型解锁AI驱动的视频创作!学习如何通过文本提示词生成惊艳视频,掌握LoRA微调、分块解码等高级功能。立即上手!

使用场景
Video
适用场景
Video
模型
Lora
显存
低显存(≤8GB)
难度
入门友好
阅读时间
3 分钟
查看所需模型更多 Video 工作流

工作流概览

使用阿里巴巴的Wanx-8G模型解锁AI驱动的视频创作!学习如何通过文本提示词生成惊艳视频,掌握LoRA微调、分块解码等高级功能。立即上手!

内容类型: Workflow

主要用途: Download

所需模型

  • Lora

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。
  • 预期技能水平:入门友好。

1. 工作流概述

m8ylga21s1iuix3d0kdd6f03659d4b235294168ed166b083c0f268eb4ace9e31ec5142d01e6d5e024a.png

该工作流基于阿里云通义万相Wanx-8G模型,专为文本生成视频(Text-to-Video)优化,具有以下特点:

  • 懒人友好:预置参数模板,简化操作流程

  • 高阶控制:支持LoRA微调、分块解码(Tiled Decode)降低显存占用

  • 多格式输出:直接生成MP4视频(H.264编码)或动态图像


2. 核心模型

模型名称

功能说明

关键参数

UMT5-XXL文本编码器

处理多语言提示词

umt5_xxl_fp8_e4m3fn_scaled.safetensors

Wanx-8G UNET主模型

视频潜变量生成

默认加载(未指定具体文件)

VAE分块解码器

显存优化视频解码

分块大小:128x32


3. 关键组件

组件名称

功能说明

安装方式

EmptyHunyuanLatentVideo

初始化视频潜变量(832x480@33帧)

需通义万相插件

VAEDecodeTiled

分块解码降低显存占用

内置组件

VHS_VideoCombine

视频合成(支持H.264/MP4)

安装ComfyUI-VideoHelperSuite插件


4. 工作流结构

  • Group 1: 文本输入

    • CLIPTextEncode:处理正面提示词(如"雪景中的狐狸")和负面提示词

  • Group 2: 模型加载

    • UNETLoader:加载Wanx-8G主模型

    • LoraLoaderModelOnly:可选加载LoRA(默认强度0.8)

  • Group 3: 视频生成

    • KSampler:使用UniPC采样器(30步,CFG=6)

    • VAEDecodeTiled:分块解码潜变量


5. 输入与输出

  • 必要输入

    • 正面提示词(英文/中文)

    • 负面提示词(预置质量过滤词)

    • 视频帧数(默认33帧)

  • 输出内容

    • MP4视频(16FPS,H.264编码)

    • 分辨率:832x480(可调整)


6. 注意事项

⚠️ 关键配置

  1. 显存优化:

    • 8GB显存需启用VAEDecodeTiled

    • 建议采样器选择uni_pc(UniPC)加速生成

  2. 插件依赖:

    git clone https://github.com/AI-ModelScope/comfyui-hunyuan-plugin
  3. 视频参数:

    • 修改VHS_VideoCombine中的crf值(18-28)控制视频质量

常见问题