ComfyUI 现已支持新开源模型:VOID、BiRefNet 和 Gemma 4
三个强大的新开源模型现已可在Comfy中使用——轻松修改文本、图像和视频
- 阅读时间
- 2 分钟
工作流概览
三个强大的新开源模型现已可在Comfy中使用——轻松修改文本、图像和视频
内容类型: Workflow
主要用途: Download
配置说明
- 打开工作流模板前,请先安装所需模型。
- 使用上方下载按钮将工作流 JSON 导入 ComfyUI。
我们开源生态系统中的激动人心的增强功能
我们的开源网络已经取得了重大进展!我们很高兴本周推出与三个新开源迭代兼容的 ComfyUI:
VOID 来自Netflix的视频对象消除
BiRefNet 复杂背景分离
Gemma 4,谷歌的多模态推理框架
查看它们的功能和实现如下。
VOID:具有物理交互感知的高级场景编辑
Netflix 近日公布了VOID(视频对象和交互删除) VOID 在视频恢复中增强了传统的像素删除技术。当消除主题时,VOID 会同时擦除与其相关的所有物理痕迹,包括主题存在时引起的阴影、反射和移动物体。

成功的恢复取决于四重面具:使用四种值将二进制掩膜替换为灰度等效图像。 这指导模型区分可移除区域、重叠部分、物理影响区域和保留区域——使得模型能够进行基本缺口填充以外的因果推断。
提示: 利用SAM3等分割框架来初始化quadmask输入。
VOID具有两种操作模式:
第1步处理标准剪辑的核心恢复
第2步集成光流细化以改善复杂素材的时间连续性
实施指南
BiRefNet:复杂视觉的精确分割
BiRefNet(双边参考网络)为CAAI AIR 2024开发的专注于从复杂图像中提取高保真掩膜。它可以捕捉到头发、毛发和透明表面等细节元素,适用于各种分割应用。


该架构可同时应对显著/遮挡物体检测,集成在一个紧凑的框架中。
实施指南
Gemma 4:多模态推理架构
Google DeepMind 推出了Gemma 4这是他们开放权重框架的最新进化。这种本质上是多模态的系统处理文本、视觉、音频和视频,同时在生成响应之前提供可配置的逐步推理。

可用变体:
E2B/E4B: 适合消费级GPU的参数高效选项
26B A4B (MoE) 和 31B 通过谷歌可用的密集配置
实施指南
创新快乐!