comfy.hebolide.com

五月份的总结

CN

2026-06-02 02:03:19

如果你错过了，以下是快速回顾。

整个五月，我们整合了11个涵盖视觉媒体、图片、3D空间、音频信号和多模态系统的新模型。以下是最近的更新。

Krea 2 — Krea AI · 图像与风格转换

Krea 首先发布了其基础模型，立即作为合作伙伴节点可用。虽然许多图像系统强调内容组成，但 Krea 2 通过风格执行区别于其他模型——处理美学影响、灵感板和创意变体，跨绘画、动画、逼真图像和其他类型。

Void — Netflix · 视频物体移除

Netflix 在开源许可下发布了 VOID 用于视频基于主题的消除。传统的修复方法针对像素移除，但 VOID 删除了元素及其后果——如阴影或反射。支持 Apache 2.0，它可以本地集成。

Tripo 3.1 — Tripo AI · 3D 生成

将文本、视觉或多个角度的生成处理集成到一个模块中。结合 TripoSplat，它为将图片转换为 3D-Gaussian 表示提供了端到端的路径。

Luma UNI-1 — Luma AI · 图像编辑

没有采用扩散解决方案的结构，Uni-1 利用解码为中心的自回归变换器在创建之前进行提示分析。增强的参考精度可通过 Create/Modify 模式使用最多九个可视输入进行编辑。在今年最具创新性的设计之一中。

Claude — Anthropic · 多模态

Anthropic 的系统直接在工作流程中可用。使用其 AI 智能处理语言任务、管道逻辑或多模态理解。

OpenRouter · 文本

单节点进入二十多个大型语言模型。直接请求最优算法而无需退出进程。

Gemma 4 — Google DeepMind · 多模态

谷歌最易访问的框架：处理文本、图像、声音和视频。可以在移动设备或独立 GPU 系统上运行，具有 31B 变体，在 Arena 排名第三，具有 Apache 2.0 和大量上下文容量。

HidDream-O1-Image — Hidream.ai · 图像

利用开源的像素级统一变换器（UiT）进行面向推理的视觉创作。擅长处理复杂的提示，避免单独的编码器

稳定音频 3 — Stability AI · 音频和音效

从文本提示生成音频轨道、音效和可用于生产的输出。您的音频工具包现已集成

BiRefNet — CAAI AIR · 背景移除

高定义前景分割。自然弥补VOID的不足——BiRefNet处理静态帧，而VOID管理运动

MoGe — Microsoft · 3D 几何和深度

从单个图片中推导出全面3D结构——空间坐标、海拔度量、表面方向、镜头参数。CVPR '25 口头报告的补充

ComfyHub 正在获得动力

超过 500+ 存储工作流程
非常有可能其他用户已经开发出了你计划的设置

期待六月份的更多发展！

推荐

解锁线稿转化为3D风格渲染工作流程

解锁惊艳艺术：使用ControlNet引导生成与超分辨率技术，将线稿转化为生动插画与3D风格渲染。学习如何通过此AI工作流实现震撼效果！

解锁液态魔法：打造惊艳视觉特效的高级图像转视频（I2V）工作流程

使用 I2V 工作流程生成震撼的液体碰撞视频！探索如何将 WanVideo 的自定义模型与 GIMM-VFI 插帧技术相结合，打造令人惊叹的视觉特效。立即学习并开启你的创作之旅！

轻松掌握本地编辑和风格转换：ICEdit & Flux结合的尖端工作流

解锁 AI 图像编辑功能：使用 ICEdit、Flux 和 ESRGAN 模型进行局部修复、风格迁移和自动缩放。立即试用，让您的图像焕然一新！

ACE-步骤 1.5 XL：商业级音乐生成舒适界面

一个4B参数的开源音乐模型，可以在几秒内生成完整的歌曲——在消费级硬件上本地运行

焕新你的视频：AI 驱动的帧级修复与增强

解锁 AI 驱动的视频修复！探索如何使用 Wan2_1-T2V-1_3B_bf16 等前沿模型，通过帧级增强和风格迁移修复模糊视频。了解如何安装和使用这些模型，实现令人惊艳的视频重渲染与高清修复。

来源网址

摘要

ComfyUI五月回顾：我们整合了什么