五月份的总结
如果你错过了,以下是快速回顾。
整个五月,我们整合了11个涵盖视觉媒体、图片、3D空间、音频信号和多模态系统的新模型。以下是最近的更新。
Krea 2 — Krea AI · 图像与风格转换
Krea 首先发布了其基础模型,立即作为合作伙伴节点可用。虽然许多图像系统强调内容组成,但 Krea 2 通过风格执行区别于其他模型——处理美学影响、灵感板和创意变体,跨绘画、动画、逼真图像和其他类型。
Void — Netflix · 视频物体移除
Netflix 在开源许可下发布了 VOID 用于视频基于主题的消除。传统的修复方法针对像素移除,但 VOID 删除了元素及其后果——如阴影或反射。支持 Apache 2.0,它可以本地集成。
Tripo 3.1 — Tripo AI · 3D 生成
将文本、视觉或多个角度的生成处理集成到一个模块中。结合 TripoSplat,它为将图片转换为 3D-Gaussian 表示提供了端到端的路径。
Luma UNI-1 — Luma AI · 图像编辑
没有采用扩散解决方案的结构,Uni-1 利用解码为中心的自回归变换器在创建之前进行提示分析。增强的参考精度可通过 Create/Modify 模式使用最多九个可视输入进行编辑。在今年最具创新性的设计之一中。
Claude — Anthropic · 多模态
Anthropic 的系统直接在工作流程中可用。使用其 AI 智能处理语言任务、管道逻辑或多模态理解。
OpenRouter · 文本
单节点进入二十多个大型语言模型。直接请求最优算法而无需退出进程。
Gemma 4 — Google DeepMind · 多模态
谷歌最易访问的框架:处理文本、图像、声音和视频。可以在移动设备或独立 GPU 系统上运行,具有 31B 变体,在 Arena 排名第三,具有 Apache 2.0 和大量上下文容量。
HidDream-O1-Image — Hidream.ai · 图像
利用开源的像素级统一变换器(UiT)进行面向推理的视觉创作。擅长处理复杂的提示,避免单独的编码器
稳定音频 3 — Stability AI · 音频和音效
从文本提示生成音频轨道、音效和可用于生产的输出。您的音频工具包现已集成
BiRefNet — CAAI AIR · 背景移除
高定义前景分割。自然弥补VOID的不足——BiRefNet处理静态帧,而VOID管理运动
MoGe — Microsoft · 3D 几何和深度
从单个图片中推导出全面3D结构——空间坐标、海拔度量、表面方向、镜头参数。CVPR '25 口头报告的补充
ComfyHub 正在获得动力
超过 500+ 存储工作流程
非常有可能其他用户已经开发出了你计划的设置
期待六月份的更多发展!