解锁 AI 视频生成的强大力量:全面工作流程指南
解锁腾讯万象 1.3B 模型驱动的 AI 视频创作!通过文本或图像生成令人惊艳的视频,并结合高级后期处理技术。了解如何利用此工作流程助力你的创意项目。
- 使用场景
- Video
- 适用场景
- Video
- 显存
- 低显存(≤8GB)
- 阅读时间
- 4 分钟
工作流概览
解锁腾讯万象 1.3B 模型驱动的 AI 视频创作!通过文本或图像生成令人惊艳的视频,并结合高级后期处理技术。了解如何利用此工作流程助力你的创意项目。
内容类型: Workflow
主要用途: Download
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
1. 工作流概述

作用:该工作流基于腾讯的万相(WanXiang)1.3B模型,实现文本生成视频(T2V)和图像生成视频(I2V)功能,支持视频超分辨率、帧插值等后期处理。
核心模型:
Wan2_1-T2V-1.3B:文本生成视频基础模型(1.3B参数)。Wan2_1-I2V-14B:图像生成视频模型(14B参数,需FP8量化)。UMT5-XXL:多语言文本编码器(支持中文提示词)。FILM-Net:帧插值模型(用于提升视频流畅度)。
2. 组件说明
组件名称 (Node) | 功能 | 安装方式 | 特殊依赖 |
|---|---|---|---|
| 视频采样生成 | 需安装 | 需下载 |
| 处理中文/英文提示词 | 同上 | 依赖 |
| 加载视频专用VAE | 同上 |
|
| 视频帧合成MP4 | 通过ComfyUI Manager安装 | 需配置FFmpeg |
| 帧插值提升流畅度 | 安装 |
|
3. 工作流结构
Group 1: 文生视频(T2V)
输入:文本提示(如"亮丽漫画风格")、负面提示词、随机种子。
处理:通过
UMT5-XXL编码文本,Wan2_1-T2V模型生成视频。输出:原始视频序列(分辨率720P)。
Group 2: 图生视频(I2V)
输入:参考图像(如
ComfyUI_06397_.png)、文本提示。处理:使用
CLIP-Vision提取图像特征,Wan2_1-I2V模型生成视频。输出:带动态效果的视频(默认81帧)。
Group 3: 视频后期
超分辨率:使用
ESRGAN_4x模型提升画质。帧插值:通过
FILM-Net将帧率从16fps提升至32fps。输出:最终MP4文件(H.264编码,CRF=19)。
4. 输入与输出
关键输入参数:
文本提示:需包含中英文描述(如示例中的"产品摄影,拉近镜头")。
分辨率:默认输出
720x1280(竖屏)或1280x720(横屏)。帧数:图生视频需≥81帧(否则可能失败)。
输出结果:
格式:MP4视频(H.264编码)。
路径:保存至
ComfyUI/output/Hunyuan/videos/子目录。
5. 注意事项
显存需求:
I2V模型需≥16GB GPU显存(FP8量化后仍需高性能显卡)。
可启用
torch.compile加速(需CUDA 12+)。
常见错误:
帧数不足81帧:调整
WanVideoBlockSwap中的帧数参数。显存不足:降低分辨率或关闭
bf16精度。
优化建议:
使用
TeaCache节点减少显存占用(默认启用)。文本提示中明确指定运动关键词(如"镜头拉近")。