从抽象到惊艳:掌握基于 LoRA 风格控制与图像标注的 AI 图像生成技术

CN
ComfyUI.org
2025-05-20 07:05:36

用 AI 改造图像:风格迁移、细节增强与多语言支持。通过 LoRA 与文生图模型,轻松生成风格化图像。

模型
Lora
显存
低显存(≤8GB)
阅读时间
4 分钟
查看所需模型

工作流概览

用 AI 改造图像:风格迁移、细节增强与多语言支持。通过 LoRA 与文生图模型,轻松生成风格化图像。

内容类型: Workflow

主要用途: Download

所需模型

  • Lora

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。
  • 使用上方下载按钮将工作流 JSON 导入 ComfyUI。

1. 工作流概述

maw677tqwol5oa7xey47562ce4bf54aa1e5fb5c7246e22dd5b8638b20b82c1085cb7a33c60d8ea8597.png

该工作流专为图像垫图(Padding)和风格增强设计,结合了图像反推(Captioning)、LoRA风格控制和文生图(Text-to-Image)技术,适用于:

  • 基于参考图生成风格化图像:输入一张图像(如抽象艺术图),自动反推描述并生成相似风格的新图像。

  • 局部细节增强:通过LoRA模型(如"动漫国风美人颜")强化特定风格特征。

  • 多语言支持:支持中英文提示词混合输入。

核心模型

  • F.1-fp8 11G版:基础生成模型(低显存优化版)。

  • Meta-Llama-3.1-8B:图像描述反推模型。

  • 猫爪_动漫国风美人颜_FLUX_1.0:国风动漫风格LoRA。


2. 关键组件说明

主要节点(Nodes):

  1. Joy_caption_two

    • 功能:调用Meta-Llama-3模型反推图像描述(如示例中的抽象线条艺术描述)。

    • 安装:需通过ComfyUI Manager安装unsloth/Meta-Llama-3.1-8B-Instruct模型。

  2. LoraLoader

    • 加载风格化LoRA(如猫爪_动漫国风美人颜_FLUX_1.0),强度可调(默认0.8)。

  3. CLIPTextEncodeFlux

    • 融合用户输入提示词(如miluo_cjsj, cloth)和反推文本,生成条件嵌入。

  4. KSampler

    • 关键参数:

      • 采样步数:20步

      • 采样器:euler(平衡速度与质量)

      • 种子值:随机(可固定为6368394736575)。

特殊依赖

  • 需下载F.1-fp8模型和ae.sft VAE,放入ComfyUI/models对应目录。


3. 工作流结构

  1. 输入处理组(Group 2)

    • 加载图像(如@rawandrendered.jpg)→ 反推描述 → 中英翻译。

  2. 生成控制组(Group 1)

    • 结合反推文本和用户提示词 → 加载LoRA → 生成图像(600x800)。

  3. 输出组

    • 潜在空间解码 → 预览/保存图像。

关键参数

  • 分辨率:通过EmptyLatentImage设置(默认600x800)。

  • LoRA强度:通过ReroutePrimitive节点调整(默认0.8)。


4. 输入与输出

输入参数

  • 图像:支持JPG/PNG(示例为1440x1440抽象艺术图)。

  • 文本提示:可附加关键词(如miluo_cjsj, cloth)。

  • LoRA选择:从预设列表中选择风格模型。

输出结果

  • 生成图像(国风动漫风格),预览显示在PreviewImage节点。

  • 示例反推描述:

    "数字艺术作品,抽象多彩线条交织,背景深蓝,具有反射效果..."


5. 注意事项

  • 显存需求:需≥8GB显存(FP8模型优化)。

  • 错误排查

    • 若缺少Joy_caption_two节点,检查是否安装comfyui_slk_joy_caption_two扩展。

    • 图像尺寸需与EmptyLatentImage设置匹配(如600x800)。

  • 风格控制

    • 调整LoRA强度(0-1)控制风格化程度。

    • 修改CLIPTextEncodeFlux中的CFG值(默认3.5)影响文本遵从度。

常见问题