“释放艺术潜力:深入探索 Flux.1 和 Florence-2 工作流程”
使用 Flux.1 和 Florence-2 生成惊艳的油画风格图像。学习如何利用 AI 进行艺术创作,并探索图像转文本描述的强大功能。现在就深入了解这个工作流程吧!
- 显存
- 中等显存(12–16GB)
- 阅读时间
- 6 分钟
工作流概览
使用 Flux.1 和 Florence-2 生成惊艳的油画风格图像。学习如何利用 AI 进行艺术创作,并探索图像转文本描述的强大功能。现在就深入了解这个工作流程吧!
内容类型: Workflow
主要用途: Download
所需模型
- Flux
- Lora
- Sd
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:中等显存(12–16GB)。
工作流概述

此工作流的主要目的是利用 Flux.1(一种基于 Stable Diffusion 的改进模型)生成具有油画风格的高质量图像,同时结合 Florence-2 模型进行图像反推(Image-to-Text Captioning),生成描述性提示词,最终生成符合特定艺术风格的图像。工作流分为两个主要阶段:
图像反推阶段:从输入图像(A2.png)生成详细的文本描述。
图像生成阶段:基于生成的文本提示,使用 Flux.1 和多个 LoRA 模型生成油画风格图像。
核心模型
Flux.1:
功能:基于扩散模型的高级图像生成模型,支持高分辨率和复杂细节生成。
来源:需从官方渠道(如 Hugging Face)下载,例如 flux1-dev.sft。
VAE(变分自编码器):
功能:解码 Latent 表示为最终图像,提升生成质量。
来源:此工作流使用 ae.sft,需手动下载并放入 models/vae 文件夹。
Florence-2:
功能:图像到文本的模型,用于生成详细的图像描述(Caption)。
来源:通过节点 DownloadAndLoadFlorence2Model 从 microsoft/Florence-2-large 下载。
组件说明
UNETLoader(ID: 10):
用途:加载 Flux.1 的 UNet 模型(基础算法_F.1)。
安装:ComfyUI 默认组件,需手动提供模型文件。
DualCLIPLoader(ID: 11):
用途:加载 Flux 专用的 CLIP 模型(t5xxl_fp8_e4m3fn 和 clip_l)。
安装:需安装 Flux 相关插件,可能通过 ComfyUI Manager 或 GitHub。
CLIPTextEncodeFlux(ID: 74):
用途:将文本提示编码为 Flux 模型可用的条件向量。
安装:Flux 专用节点,需安装 Flux 支持插件。
KSampler(ID: 22):
用途:执行采样过程,生成 Latent 表示。
安装:ComfyUI 核心组件,默认可用。
VAEDecode(ID: 20):
用途:将 Latent 表示解码为图像。
安装:默认组件。
LoraLoaderModelOnly(ID: 31, 76, 77, 78):
用途:加载多个 LoRA 模型,增强 Flux 的油画风格。
安装:默认组件,LoRA 文件需从 Civitai 或 Hugging Face 下载,例如 油画厚涂风格 Oil Painting_FLUX_FLUX_F.1。
DownloadAndLoadFlorence2Model(ID: 81):
用途:下载并加载 Florence-2 模型。
安装:需安装 Florence-2 支持插件(如 ComfyUI-Florence2)。
Florence2Run(ID: 80):
用途:运行 Florence-2,生成图像描述。
安装:同上。
StringFunction|pysssss(ID: 73):
用途:处理 Florence-2 生成的文本,附加额外描述。
安装:需安装 pysssss 自定义节点(从 GitHub 获取)。
工作流结构
反推组(Group: 反推):
作用:从输入图像生成描述性提示。
节点:LoadImage → DownloadAndLoadFlorence2Model → Florence2Run → StringFunction|pysssss。
输入:图像 A2.png。
输出:文本描述(如“A romantic oil painting...”)。
模型加载组:
作用:加载 Flux.1 模型及其增强 LoRA。
节点:UNETLoader → 多个 LoraLoaderModelOnly。
输入:模型文件路径及 LoRA 文件。
输出:增强后的模型。
文本编码组:
作用:将文本提示编码为条件。
节点:DualCLIPLoader → CLIPTextEncodeFlux(正向提示)、CLIPTextEncode(负向提示)。
输入:正向提示(从反推组获取)、负向提示(NSFW)。
输出:条件向量。
图像生成组:
作用:生成最终图像。
节点:EmptyLatentImage → KSampler → VAEDecode → PreviewImage。
输入:分辨率(904x1600)、采样参数。
输出:油画风格图像。
输入与输出
输入参数:
图像:A2.png(需放置于 input 文件夹)。
分辨率:904x1600(由 EmptyLatentImage 设置)。
种子值:随机化(KSampler 设置)。
提示词:由 Florence-2 自动生成并增强。
输出结果:
PNG 格式的油画风格图像,尺寸为 904x1600。
注意事项
模型文件:确保 Flux.1 (基础算法_F.1)、VAE (ae.sft) 和 LoRA 文件正确放置于 models 文件夹。
插件安装:需安装 Flux 支持插件和 Florence-2 插件,未安装可能导致节点缺失。
性能需求:Flux.1 和 Florence-2 需较高 GPU 性能(建议 12GB+ VRAM)。
错误排查:若提示“模型未找到”,检查文件路径;若节点报错,确认插件版本兼容性。