探索惊艳图像创作流程:基于Flux.1的文本到图像生成

CN
ComfyUI.org
2025-03-11 08:01:50

借助Flux.1解锁高质量图像生成!探索一种集成了LoRA增强和多语言支持的文本到图像工作流程,生成令人惊叹的1024x1280分辨率图像。了解如何利用Flux.1-dev、T5-XXL、CLIP-L和VAE技术,应用于艺术和专业摄影风格的创作。

使用场景
Text In Image
适用场景
Text In Image
模型
Flux
Lora
显存
低显存(≤8GB)
阅读时间
9 分钟
查看所需模型更多 Text In Image 工作流

工作流概览

借助Flux.1解锁高质量图像生成!探索一种集成了LoRA增强和多语言支持的文本到图像工作流程,生成令人惊叹的1024x1280分辨率图像。了解如何利用Flux.1-dev、T5-XXL、CLIP-L和VAE技术,应用于艺术和专业摄影风格的创作。

内容类型: Workflow

主要用途: Download

所需模型

  • Flux
  • Lora

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。

工作流概述

m847ekhlboaxtdjmxm5ComfyUI_00138_.png

此工作流是一个基于 Flux.1 模型的文本转图像(Text-to-Image, T2I)生成流程,旨在根据用户输入的文本提示生成高质量、高分辨率的图像。它结合了 Flux.1-dev 模型、LoRA(低秩适应)增强和多语言支持(如翻译功能),生成具有特定风格(如日本传统寺庙建筑)的图像。最终输出为 1024x1280 分辨率的图像,适用于需要艺术性或专业摄影风格的场景。

核心模型

  1. Flux.1-dev (flux1-dev.sft)

    • 功能:Flux.1 是一个高效的文本转图像生成模型,擅长生成高细节、逼真的图像。

    • 来源:需从 Flux 官方渠道(如 Hugging Face)下载,放置在 ComfyUI/models/unet/ 文件夹中。

  2. LoRA: flux-lora-建筑3D立体剪纸-03.safetensors

    • 功能:LoRA 是一种微调模型,用于为 Flux.1 添加特定风格(如 3D 立体剪纸建筑风格)。

    • 来源:从社区(如 Civitai)或自定义训练获取,放置在 ComfyUI/models/loras/ 文件夹中。

  3. T5-XXL (t5xxl_fp16.safetensors)

    • 功能:强大的文本编码器,将复杂提示词转化为模型可理解的嵌入表示。

    • 来源:从 ComfyUI 官方或 Hugging Face 下载,放置在 ComfyUI/models/text_encoders/ 文件夹中。

  4. CLIP-L (clip_l.safetensors)

    • 功能:CLIP 模型的轻量版,与 T5-XXL 配合编码文本提示。

    • 来源:从 ComfyUI 官方或 Hugging Face 下载,放置在 ComfyUI/models/clip/ 文件夹中。

  5. VAE (ae.safetensors)

    • 功能:变分自编码器,将潜在表示解码为图像。

    • 来源:从 Flux 官方渠道下载,放置在 ComfyUI/models/vae/ 文件夹中。

组件说明

  1. DualCLIPLoader

    • 用途:加载 T5-XXL 和 CLIP-L 文本编码器。

    • 功能:为 Flux 模型准备双重 CLIP 编码支持,增强提示词理解能力。

    • 安装:ComfyUI 自带节点。

    • 依赖:需要 t5xxl_fp16.safetensors 和 clip_l.safetensors 文件。

  2. CLIPTextEncode

    • 用途:将文本提示编码为条件输入。

    • 功能:接收 CLIP 模型和文本,输出条件数据供生成使用。

    • 安装:ComfyUI 自带节点。

  3. EmptyLatentImage

    • 用途:生成空白潜在表示作为图像生成的起点。

    • 功能:设置输出图像的分辨率(1024x1280)。

    • 安装:ComfyUI 自带节点。

  4. KSamplerAdvanced

    • 用途:执行 Flux 模型的采样过程。

    • 功能:根据模型、正向/负向条件和潜在表示生成图像,使用 DPM++ 2M 采样器,30 步采样。

    • 安装:ComfyUI 自带节点。

  5. LoraLoaderModelOnly

    • 用途:加载 LoRA 模型并应用到 Flux.1。

    • 功能:以 0.8 的强度融合 LoRA,增强特定风格。

    • 安装:ComfyUI 自带节点。

    • 依赖:需要 flux-lora-建筑3D立体剪纸-03.safetensors 文件。

  6. VAEDecode

    • 用途:将潜在表示解码为最终图像。

    • 功能:结合 VAE 输出图像数据。

    • 安装:ComfyUI 自带节点。

  7. FluxGuidance

    • 用途:调整正向条件的引导强度。

    • 功能:设置引导值为 3.5,控制生成结果与提示的贴合度。

    • 安装:需安装 Flux 相关节点(内置于 Flux 支持包)。

  8. ConditioningZeroOut

    • 用途:生成空白负向条件。

    • 功能:避免负向提示干扰生成,仅依赖正向提示。

    • 安装:ComfyUI 自带节点。

  9. UNETLoader

    • 用途:加载 Flux.1 的 UNet 模型。

    • 功能:提供生成核心网络。

    • 安装:ComfyUI 自带节点。

    • 依赖:需要 flux1-dev.sft 文件。

  10. VAELoader

    • 用途:加载 VAE 模型。

    • 功能:支持图像解码。

    • 安装:ComfyUI 自带节点。

    • 依赖:需要 ae.safetensors 文件。

  11. SaveImage

    • 用途:保存生成的图像。

    • 功能:以“ComfyUI”前缀保存为 PNG 文件。

    • 安装:ComfyUI 自带节点。

  12. DeepTranslatorTextNode

    • 用途:翻译输入提示词。

    • 功能:将英文提示翻译为中文(如“产品在白色洗面台,温馨的烛光”),支持多语言输入。

    • 安装:需安装 ComfyUI_Custom_Nodes_AlekPet,通过 ComfyUI Manager 搜索“AlekPet”或从 GitHub(https://github.com/AlekPet/ComfyUI_Custom_Nodes_AlekPet)下载。

  13. ShowText|pysssss

    • 用途:显示翻译后的文本。

    • 功能:用于调试或确认翻译结果。

    • 安装:需安装 ComfyUI-Custom-Scripts,通过 ComfyUI Manager 搜索“Custom-Scripts”或从 GitHub(https://github.com/pysssss/ComfyUI-Custom-Scripts)下载。

  14. CR Prompt Text

工作流结构

  1. 提示词输入与翻译组

    • 节点:CR Prompt Text → DeepTranslatorTextNode → ShowText|pysssss

    • 作用:输入英文提示词并翻译为中文,供调试或备用。

    • 输入参数:英文提示(如“A highly detailed, red-toned digital illustration…”)。

    • 输出结果:翻译后的中文提示(如“一个高度详细的红色数字插图…”)。

  2. 模型加载与编码组

    • 节点:UNETLoader → LoraLoaderModelOnly → DualCLIPLoader → CLIPTextEncode

    • 作用:加载 Flux.1 模型、LoRA 和 CLIP 编码器,将提示词编码为条件。

    • 输入参数:提示词、模型路径、LoRA 强度(0.8)。

    • 输出结果:编码后的正向条件。

  3. 条件调整组

    • 节点:FluxGuidance → ConditioningZeroOut

    • 作用:调整正向条件强度(3.5),生成空白负向条件。

    • 输入参数:编码后的条件。

    • 输出结果:调整后的正向和负向条件。

  4. 图像生成组

    • 节点:EmptyLatentImage → KSamplerAdvanced → VAEDecode

    • 作用:生成 1024x1280 的空白潜在表示,进行采样并解码为图像。

    • 输入参数:分辨率(1024x1280)、采样步数(30)、引导值(3.5)。

    • 输出结果:生成的高质量图像。

  5. 输出组

    • 节点:SaveImage

    • 作用:保存生成的图像。

    • 输入参数:生成的图像数据。

    • 输出结果:PNG 图像文件。

输入与输出

  • 预期输入参数

    • 文本提示:多行英文描述(如“A highly detailed, red-toned digital illustration…”)。

    • 分辨率:1024x1280。

    • 种子值:随机(349017919967907)。

    • 采样步数:30。

    • 引导值:3.5。

    • LoRA 强度:0.8。

  • 最终输出

    • 1024x1280 的高质量图像,保存为 PNG 文件(前缀“ComfyUI”)。

注意事项

  1. 资源需求:Flux.1 模型需要较高显存(建议 12GB+ VRAM),若不足可尝试 fp8 版本。

  2. 模型文件:确保所有模型文件(flux1-dev.sft、t5xxl_fp16.safetensors 等)放置正确,否则会报错。

  3. 性能优化:若生成时间过长,可减少采样步数(如从 30 到 20)。

  4. 插件安装:需安装 AlekPet、Custom-Scripts 和 Comfyroll 插件,未安装会导致翻译或提示输入失败。

  5. 翻译功能:DeepTranslatorTextNode 使用 Google 翻译,需确保网络连接或配置代理。

常见问题