解锁文本生成视频的强大能力:阿里巴巴Wanx-8G模型解析
使用阿里巴巴的Wanx-8G模型解锁AI驱动的视频创作!学习如何通过文本提示词生成惊艳视频,掌握LoRA微调、分块解码等高级功能。立即上手!
工作流概览
使用阿里巴巴的Wanx-8G模型解锁AI驱动的视频创作!学习如何通过文本提示词生成惊艳视频,掌握LoRA微调、分块解码等高级功能。立即上手!
内容类型: Workflow
主要用途: Download
所需模型
- Lora
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
- 预期技能水平:入门友好。
1. 工作流概述

该工作流基于阿里云通义万相Wanx-8G模型,专为文本生成视频(Text-to-Video)优化,具有以下特点:
懒人友好:预置参数模板,简化操作流程
高阶控制:支持LoRA微调、分块解码(Tiled Decode)降低显存占用
多格式输出:直接生成MP4视频(H.264编码)或动态图像
2. 核心模型
模型名称 | 功能说明 | 关键参数 |
|---|---|---|
UMT5-XXL文本编码器 | 处理多语言提示词 |
|
Wanx-8G UNET主模型 | 视频潜变量生成 | 默认加载(未指定具体文件) |
VAE分块解码器 | 显存优化视频解码 | 分块大小:128x32 |
3. 关键组件
组件名称 | 功能说明 | 安装方式 |
|---|---|---|
EmptyHunyuanLatentVideo | 初始化视频潜变量(832x480@33帧) | 需通义万相插件 |
VAEDecodeTiled | 分块解码降低显存占用 | 内置组件 |
VHS_VideoCombine | 视频合成(支持H.264/MP4) | 安装 |
4. 工作流结构
Group 1: 文本输入
CLIPTextEncode:处理正面提示词(如"雪景中的狐狸")和负面提示词
Group 2: 模型加载
UNETLoader:加载Wanx-8G主模型
LoraLoaderModelOnly:可选加载LoRA(默认强度0.8)
Group 3: 视频生成
KSampler:使用UniPC采样器(30步,CFG=6)
VAEDecodeTiled:分块解码潜变量
5. 输入与输出
必要输入:
正面提示词(英文/中文)
负面提示词(预置质量过滤词)
视频帧数(默认33帧)
输出内容:
MP4视频(16FPS,H.264编码)
分辨率:832x480(可调整)
6. 注意事项
⚠️ 关键配置:
显存优化:
8GB显存需启用
VAEDecodeTiled建议采样器选择
uni_pc(UniPC)加速生成
插件依赖:
git clone https://github.com/AI-ModelScope/comfyui-hunyuan-plugin视频参数:
修改
VHS_VideoCombine中的crf值(18-28)控制视频质量