五月份的总结

CN
2026-06-02 02:03:19

如果你错过了,以下是快速回顾。

整个五月,我们整合了11个涵盖视觉媒体、图片、3D空间、音频信号和多模态系统的新模型。以下是最近的更新。

Krea 2 — Krea AI · 图像与风格转换

  • Krea 首先发布了其基础模型,立即作为合作伙伴节点可用。虽然许多图像系统强调内容组成,但 Krea 2 通过风格执行区别于其他模型——处理美学影响、灵感板和创意变体,跨绘画、动画、逼真图像和其他类型。

Void — Netflix · 视频物体移除

  • Netflix 在开源许可下发布了 VOID 用于视频基于主题的消除。传统的修复方法针对像素移除,但 VOID 删除了元素及其后果——如阴影或反射。支持 Apache 2.0,它可以本地集成。

Tripo 3.1 — Tripo AI · 3D 生成

  • 将文本、视觉或多个角度的生成处理集成到一个模块中。结合 TripoSplat,它为将图片转换为 3D-Gaussian 表示提供了端到端的路径。

Luma UNI-1 — Luma AI · 图像编辑

  • 没有采用扩散解决方案的结构,Uni-1 利用解码为中心的自回归变换器在创建之前进行提示分析。增强的参考精度可通过 Create/Modify 模式使用最多九个可视输入进行编辑。在今年最具创新性的设计之一中。

Claude — Anthropic · 多模态

  • Anthropic 的系统直接在工作流程中可用。使用其 AI 智能处理语言任务、管道逻辑或多模态理解。

OpenRouter · 文本

  • 单节点进入二十多个大型语言模型。直接请求最优算法而无需退出进程。

Gemma 4 — Google DeepMind · 多模态

  • 谷歌最易访问的框架:处理文本、图像、声音和视频。可以在移动设备或独立 GPU 系统上运行,具有 31B 变体,在 Arena 排名第三,具有 Apache 2.0 和大量上下文容量。

HidDream-O1-Image — Hidream.ai · 图像

  • 利用开源的像素级统一变换器(UiT)进行面向推理的视觉创作。擅长处理复杂的提示,避免单独的编码器

稳定音频 3 — Stability AI · 音频和音效

  • 从文本提示生成音频轨道、音效和可用于生产的输出。您的音频工具包现已集成

BiRefNet — CAAI AIR · 背景移除

  • 高定义前景分割。自然弥补VOID的不足——BiRefNet处理静态帧,而VOID管理运动

MoGe — Microsoft · 3D 几何和深度

  • 从单个图片中推导出全面3D结构——空间坐标、海拔度量、表面方向、镜头参数。CVPR '25 口头报告的补充

ComfyHub 正在获得动力

  • 超过 500+ 存储工作流程

  • 非常有可能其他用户已经开发出了你计划的设置

期待六月份的更多发展!