Introducing ImagenWorld：图像生成和编辑的真实世界基准

虽然令人印象深刻的人工智能生成图像经常被展示，但响应中发生的缺陷往往模糊不清。考虑一下在这些系统出错的确切位置进行可视化的可能性。

ImagenWorld作为一个全面benchmark，旨在揭示和阐明模型在六项核心任务中的缺陷，这些任务评估了图像创建和修改的多个方面。任务从基于文本的图像生成到多参考编辑。通过关注实际场景，这个benchmark测试了模型处理复杂的多步骤命令的能力，类似于实际用户输入。所有活动都跨越六个不同的视觉领域，提供了性能变化的真实概述。

ImagenWorld如何工作
而不是提供一个模糊的指标，ImagenWorld提供清晰的评估见解。
每个图像都经过三个审查者根据四个可理解的标准进行评估：

强制对齐：结果是否符合给定的指令？
视觉魅力：它是否具有美观和逻辑一致性？
元素和谐：所有组件是否合乎逻辑地组合在一起？
不规则性：是否存在失真或不可解释的文本？

除了数字评分外，评论者还使用分割图和视觉语言模型中的对象提取来确定导致缺陷的特定对象或段落。这样产生的数据集使模型评分的基础变得透明。

Benchmark 内部
ImagenWorld集成了六项任务，涵盖图像生成和细化，展示了系统在现实世界条件下的行为：

TIG：使用文本输入创建图像
SRIG / MRIG：使用一个或多个参考生成图像
TIE：根据文本指导的图像细化
SRIE / MRIE：基于单个或多个参考的视觉编辑

活动与艺术品、照片级图像、计算机图形、屏幕截图、信息图形和文本图形等领域相关，捕捉广泛的复杂性。
每个 ImagenWorld 样本都包括：

原始参考视觉和指令
来自各种开源和专有系统的输出
人工注释的缺陷（例如缺失物体、文本扭曲、颜色不匹配）
识别生成内容中错误位置的分段遮罩

ImagenWorld 有超过 20,000 个注释条目，揭示了模型的一致行为和可视化限制，突出了输出失败的根本原因。
访问任务和可视化：https://huggingface.co/spaces/TIGER-Lab/ImagenWorld-Visualizer

数据集位置：https://huggingface.co/datasets/TIGER-Lab/ImagenWorld

统一方法评估十四个模型
十四个采用扩散、自回归或混合方法的尖端模型使用相同的标准化方法评估所有任务。
包括在多模态结构中集成生成和精炼的系统。

获得的见解
编辑是最大的挑战
顶级系统在编辑请求时通常会生成全新的视觉效果或者忽略输入，表明它们缺乏细粒度调整能力
文本密集区域让大多数系统不知所措
艺术作品获得了较高的人类评分（约0.78），而信息图和屏幕截图由于文本和对齐问题而落后（约0.55）

数据细化与模型规模不相上下
Qwen-Image凭借合成增强的文本样本，在文本密集环境中超过了GPT-Image-1，证明了深思熟虑的数据处理可以超越模型规模的优势
自动化指标在进步
视觉语言模型评分器实现肯德尔 τ 接近 0.79，接近人类一致性排名，尽管轻微的失真会逃过检测，因此需要人类-VLM 综合方法。

常见的失败模式

指令不一致：系统经常忽略复杂的约束或详细的指令。
指令：修改图像 1，将左上角的箱子替换为图像 3 的警示标志。将图像 2 中的粉色和黄色人物放在中央门口旁边，确保正确的透视和缩放。
计算不一致：百分比超过 100%，总和不正确，或者内部逻辑故障。
分段标签故障：错误标签分配、边界错位或对齐失败。
编辑中的完整再生：较小的调整请求会触发全新的输出或忽略源。
插图和图表缺陷：在分析或图表输出中难以处理内部结构。
语言混乱：文本在信息图表或屏幕截图等场景中变得不可读。

发现的意义
即使视觉上吸引人的图像也可能缺乏基本的说明（例如，错误地放置一个杯子），强调了对客观分析的需求。该基准通过清晰、局部化的评估推动了更强大的生成系统，从而有利于研究和实际部署。

范围的大小

6 个任务专注于创建和编辑
6 个领域，从艺术作品到屏幕截图
3.6K 上下文组
20K 人类注释
14 个系统，包括开源和闭源

更值得信赖的图像模型的进步需要像 ImagenWorld 这样的框架，将视觉标准与精确的故障定位相结合。访问完整详细信息：https://tiger-ai-lab.github.io/ImagenWorld/

Introducing ImagenWorld：图像生成和编辑的真实世界基准

推荐

来源网址

摘要