解锁 FLUX:打造文本到图像和图像字幕生成的终极多模态工作流

CN
ComfyUI.org
2025-06-05 09:53:20

解锁基于 FLUX 的多模态工作流,AI 驱动图像生成和字幕生成。利用 Llama-3、FLUX MIX V2 和 Shining Nikki LoRA 等模型,轻松生成令人惊叹的图像与字幕,体验 AI 图像创作与字幕生成的无限可能!

模型
Flux
Lora
显存
低显存(≤8GB)
阅读时间
3 分钟
查看所需模型

工作流概览

解锁基于 FLUX 的多模态工作流,AI 驱动图像生成和字幕生成。利用 Llama-3、FLUX MIX V2 和 Shining Nikki LoRA 等模型,轻松生成令人惊叹的图像与字幕,体验 AI 图像创作与字幕生成的无限可能!

内容类型: Workflow

主要用途: Download

所需模型

  • Flux
  • Lora

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。

1. 工作流概述

mbknpt8cg22n925c4fo图片压缩333333.png

这是一个基于FLUX模型的多功能图像生成工作流,支持文本生成图像图像反推提示词,核心特点包括:

  • 集成Llama-3 8B模型自动生成图像描述

  • 使用FLUX混合模型(小白_FLUX_MIX_V2)实现高质量生成

  • 支持多LoRA叠加控制(闪耀暖暖系列LoRA)

  • 内置百度翻译节点实现中英提示词互转

核心模型:

  • FLUX MIX V2: 基础生成模型(FP8量化版)

  • Meta-Llama-3-8B: 图像描述生成模型

  • 闪耀暖暖系列LoRA: 服装风格微调(诗意绽放/生日套/深渊守望)


2. 关键组件

节点名称

功能

安装方式

Joy_caption_two

调用Llama-3生成图像描述

需安装comfyui_slk_joy_caption_two插件

BaiduTranslateNode

中英提示词互转

需单独安装翻译插件

CR Text Concatenate

动态拼接提示词

通过Comfyroll插件安装

Fast Groups Bypasser

模块化开关控制

rgthree插件

特殊依赖:

  • 模型文件:

    • 小白_FLUX_MIX_V2.safetensors 需放入models/unet

    • t5xxl_fp8_e4m3fn CLIP模型放入models/clip

  • 插件: 必须安装Impact PackComfyUI-Manager


3. 工作流结构

主要分组逻辑:

  1. 提示词输入组 (左上)

    • 支持中英文输入 + 百度翻译 + Llama-3反推

    • 动态拼接LoRA触发词(如"birthday suit")

  2. FLUX生成组 (中部)

    • 使用896x1152分辨率 + Euler采样器

    • 三阶LoRA叠加控制(权重0.2~0.8)

  3. 输出优化组 (右侧)

    • 支持批量生成(最大3张非会员)

    • 自动保存到Liblib平台目录


4. 输入输出

必需输入:

  • 正面提示词: 可直接使用中文(如"粉色头发女孩")

  • 可选图片输入: 用于反推提示词(需关闭开关②)

  • LoRA选择: 通过下拉菜单切换

最终输出:

  • 格式: JPG/PNG(带生成参数元数据)

  • 路径: 自动上传至Liblib云存储


5. 注意事项

  • 显存需求: ≥16GB(FP8模型+多LoRA)

  • 常见错误:

    • LoRA not found: 检查模型文件名是否含空格

    • Translation failed: 需配置百度API密钥

  • 优化建议:

    • 关闭未使用的LoRA组降低显存占用

    • 批量生成时减少单张分辨率至768x1024

常见问题