探索惊艳图像创作流程:基于Flux.1的文本到图像生成
借助Flux.1解锁高质量图像生成!探索一种集成了LoRA增强和多语言支持的文本到图像工作流程,生成令人惊叹的1024x1280分辨率图像。了解如何利用Flux.1-dev、T5-XXL、CLIP-L和VAE技术,应用于艺术和专业摄影风格的创作。
- 使用场景
- Text In Image
- 适用场景
- Text In Image
- 显存
- 低显存(≤8GB)
- 阅读时间
- 9 分钟
工作流概览
借助Flux.1解锁高质量图像生成!探索一种集成了LoRA增强和多语言支持的文本到图像工作流程,生成令人惊叹的1024x1280分辨率图像。了解如何利用Flux.1-dev、T5-XXL、CLIP-L和VAE技术,应用于艺术和专业摄影风格的创作。
内容类型: Workflow
主要用途: Download
所需模型
- Flux
- Lora
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
工作流概述

此工作流是一个基于 Flux.1 模型的文本转图像(Text-to-Image, T2I)生成流程,旨在根据用户输入的文本提示生成高质量、高分辨率的图像。它结合了 Flux.1-dev 模型、LoRA(低秩适应)增强和多语言支持(如翻译功能),生成具有特定风格(如日本传统寺庙建筑)的图像。最终输出为 1024x1280 分辨率的图像,适用于需要艺术性或专业摄影风格的场景。
核心模型
Flux.1-dev (flux1-dev.sft)
功能:Flux.1 是一个高效的文本转图像生成模型,擅长生成高细节、逼真的图像。
来源:需从 Flux 官方渠道(如 Hugging Face)下载,放置在 ComfyUI/models/unet/ 文件夹中。
LoRA: flux-lora-建筑3D立体剪纸-03.safetensors
功能:LoRA 是一种微调模型,用于为 Flux.1 添加特定风格(如 3D 立体剪纸建筑风格)。
来源:从社区(如 Civitai)或自定义训练获取,放置在 ComfyUI/models/loras/ 文件夹中。
T5-XXL (t5xxl_fp16.safetensors)
功能:强大的文本编码器,将复杂提示词转化为模型可理解的嵌入表示。
来源:从 ComfyUI 官方或 Hugging Face 下载,放置在 ComfyUI/models/text_encoders/ 文件夹中。
CLIP-L (clip_l.safetensors)
功能:CLIP 模型的轻量版,与 T5-XXL 配合编码文本提示。
来源:从 ComfyUI 官方或 Hugging Face 下载,放置在 ComfyUI/models/clip/ 文件夹中。
VAE (ae.safetensors)
功能:变分自编码器,将潜在表示解码为图像。
来源:从 Flux 官方渠道下载,放置在 ComfyUI/models/vae/ 文件夹中。
组件说明
DualCLIPLoader
用途:加载 T5-XXL 和 CLIP-L 文本编码器。
功能:为 Flux 模型准备双重 CLIP 编码支持,增强提示词理解能力。
安装:ComfyUI 自带节点。
依赖:需要 t5xxl_fp16.safetensors 和 clip_l.safetensors 文件。
CLIPTextEncode
用途:将文本提示编码为条件输入。
功能:接收 CLIP 模型和文本,输出条件数据供生成使用。
安装:ComfyUI 自带节点。
EmptyLatentImage
用途:生成空白潜在表示作为图像生成的起点。
功能:设置输出图像的分辨率(1024x1280)。
安装:ComfyUI 自带节点。
KSamplerAdvanced
用途:执行 Flux 模型的采样过程。
功能:根据模型、正向/负向条件和潜在表示生成图像,使用 DPM++ 2M 采样器,30 步采样。
安装:ComfyUI 自带节点。
LoraLoaderModelOnly
用途:加载 LoRA 模型并应用到 Flux.1。
功能:以 0.8 的强度融合 LoRA,增强特定风格。
安装:ComfyUI 自带节点。
依赖:需要 flux-lora-建筑3D立体剪纸-03.safetensors 文件。
VAEDecode
用途:将潜在表示解码为最终图像。
功能:结合 VAE 输出图像数据。
安装:ComfyUI 自带节点。
FluxGuidance
用途:调整正向条件的引导强度。
功能:设置引导值为 3.5,控制生成结果与提示的贴合度。
安装:需安装 Flux 相关节点(内置于 Flux 支持包)。
ConditioningZeroOut
用途:生成空白负向条件。
功能:避免负向提示干扰生成,仅依赖正向提示。
安装:ComfyUI 自带节点。
UNETLoader
用途:加载 Flux.1 的 UNet 模型。
功能:提供生成核心网络。
安装:ComfyUI 自带节点。
依赖:需要 flux1-dev.sft 文件。
VAELoader
用途:加载 VAE 模型。
功能:支持图像解码。
安装:ComfyUI 自带节点。
依赖:需要 ae.safetensors 文件。
SaveImage
用途:保存生成的图像。
功能:以“ComfyUI”前缀保存为 PNG 文件。
安装:ComfyUI 自带节点。
DeepTranslatorTextNode
用途:翻译输入提示词。
功能:将英文提示翻译为中文(如“产品在白色洗面台,温馨的烛光”),支持多语言输入。
安装:需安装 ComfyUI_Custom_Nodes_AlekPet,通过 ComfyUI Manager 搜索“AlekPet”或从 GitHub(https://github.com/AlekPet/ComfyUI_Custom_Nodes_AlekPet)下载。
ShowText|pysssss
用途:显示翻译后的文本。
功能:用于调试或确认翻译结果。
安装:需安装 ComfyUI-Custom-Scripts,通过 ComfyUI Manager 搜索“Custom-Scripts”或从 GitHub(https://github.com/pysssss/ComfyUI-Custom-Scripts)下载。
CR Prompt Text
用途:提供初始文本提示输入。
功能:输出用户定义的提示词,支持多行输入。
安装:需安装 ComfyUI_Comfyroll_CustomNodes,通过 ComfyUI Manager 搜索“Comfyroll”或从 GitHub(https://github.com/RockOfFire/ComfyUI_Comfyroll_CustomNodes)下载。
工作流结构
提示词输入与翻译组
节点:CR Prompt Text → DeepTranslatorTextNode → ShowText|pysssss
作用:输入英文提示词并翻译为中文,供调试或备用。
输入参数:英文提示(如“A highly detailed, red-toned digital illustration…”)。
输出结果:翻译后的中文提示(如“一个高度详细的红色数字插图…”)。
模型加载与编码组
节点:UNETLoader → LoraLoaderModelOnly → DualCLIPLoader → CLIPTextEncode
作用:加载 Flux.1 模型、LoRA 和 CLIP 编码器,将提示词编码为条件。
输入参数:提示词、模型路径、LoRA 强度(0.8)。
输出结果:编码后的正向条件。
条件调整组
节点:FluxGuidance → ConditioningZeroOut
作用:调整正向条件强度(3.5),生成空白负向条件。
输入参数:编码后的条件。
输出结果:调整后的正向和负向条件。
图像生成组
节点:EmptyLatentImage → KSamplerAdvanced → VAEDecode
作用:生成 1024x1280 的空白潜在表示,进行采样并解码为图像。
输入参数:分辨率(1024x1280)、采样步数(30)、引导值(3.5)。
输出结果:生成的高质量图像。
输出组
节点:SaveImage
作用:保存生成的图像。
输入参数:生成的图像数据。
输出结果:PNG 图像文件。
输入与输出
预期输入参数:
文本提示:多行英文描述(如“A highly detailed, red-toned digital illustration…”)。
分辨率:1024x1280。
种子值:随机(349017919967907)。
采样步数:30。
引导值:3.5。
LoRA 强度:0.8。
最终输出:
1024x1280 的高质量图像,保存为 PNG 文件(前缀“ComfyUI”)。
注意事项
资源需求:Flux.1 模型需要较高显存(建议 12GB+ VRAM),若不足可尝试 fp8 版本。
模型文件:确保所有模型文件(flux1-dev.sft、t5xxl_fp16.safetensors 等)放置正确,否则会报错。
性能优化:若生成时间过长,可减少采样步数(如从 30 到 20)。
插件安装:需安装 AlekPet、Custom-Scripts 和 Comfyroll 插件,未安装会导致翻译或提示输入失败。
翻译功能:DeepTranslatorTextNode 使用 Google 翻译,需确保网络连接或配置代理。