解锁 FLUX:打造文本到图像和图像字幕生成的终极多模态工作流
解锁基于 FLUX 的多模态工作流,AI 驱动图像生成和字幕生成。利用 Llama-3、FLUX MIX V2 和 Shining Nikki LoRA 等模型,轻松生成令人惊叹的图像与字幕,体验 AI 图像创作与字幕生成的无限可能!
- 显存
- 低显存(≤8GB)
- 阅读时间
- 3 分钟
工作流概览
解锁基于 FLUX 的多模态工作流,AI 驱动图像生成和字幕生成。利用 Llama-3、FLUX MIX V2 和 Shining Nikki LoRA 等模型,轻松生成令人惊叹的图像与字幕,体验 AI 图像创作与字幕生成的无限可能!
内容类型: Workflow
主要用途: Download
所需模型
- Flux
- Lora
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
1. 工作流概述

这是一个基于FLUX模型的多功能图像生成工作流,支持文本生成图像和图像反推提示词,核心特点包括:
集成Llama-3 8B模型自动生成图像描述
使用FLUX混合模型(小白_FLUX_MIX_V2)实现高质量生成
支持多LoRA叠加控制(闪耀暖暖系列LoRA)
内置百度翻译节点实现中英提示词互转
核心模型:
FLUX MIX V2: 基础生成模型(FP8量化版)
Meta-Llama-3-8B: 图像描述生成模型
闪耀暖暖系列LoRA: 服装风格微调(诗意绽放/生日套/深渊守望)
2. 关键组件
节点名称 | 功能 | 安装方式 |
|---|---|---|
| 调用Llama-3生成图像描述 | 需安装 |
| 中英提示词互转 | 需单独安装翻译插件 |
| 动态拼接提示词 | 通过 |
| 模块化开关控制 | 需 |
特殊依赖:
模型文件:
小白_FLUX_MIX_V2.safetensors需放入models/unett5xxl_fp8_e4m3fnCLIP模型放入models/clip
插件: 必须安装
Impact Pack和ComfyUI-Manager
3. 工作流结构
主要分组逻辑:
提示词输入组 (左上)
支持中英文输入 + 百度翻译 + Llama-3反推
动态拼接LoRA触发词(如"birthday suit")
FLUX生成组 (中部)
使用896x1152分辨率 + Euler采样器
三阶LoRA叠加控制(权重0.2~0.8)
输出优化组 (右侧)
支持批量生成(最大3张非会员)
自动保存到
Liblib平台目录
4. 输入输出
必需输入:
正面提示词: 可直接使用中文(如"粉色头发女孩")
可选图片输入: 用于反推提示词(需关闭开关②)
LoRA选择: 通过下拉菜单切换
最终输出:
格式: JPG/PNG(带生成参数元数据)
路径: 自动上传至Liblib云存储
5. 注意事项
显存需求: ≥16GB(FP8模型+多LoRA)
常见错误:
LoRA not found: 检查模型文件名是否含空格Translation failed: 需配置百度API密钥
优化建议:
关闭未使用的LoRA组降低显存占用
批量生成时减少单张分辨率至768x1024