研究人员打造新型数据集助力评估扩散模型常识能力

　　例如，许多模型在物理常识方面表现较差，生成的图像往往与常识相悖：■◆◆★★“没有风的旗帜”在模型看来似乎仍然是飘扬的；而■◆■◆“水中的铅笔◆◆◆◆★”则被误认为是笔直的。

　　在对扩散模型的调研中，他们识别出了两个最具挑战性的问题：基于对象的图像编辑和常识性图像生成。前者涉及到如何在修改图像内容的同时，保持图中主人公的特征不变。

　　2023 年 8 月，课题组制定了研究目标，并决定构建一个数据集■◆◆，以便设计出可以为任何模型打分的方法■★★■。

　　为了探究这一领域的前沿，美国宾夕法尼亚大学的研究团队开展了一项研究，旨在评估扩散模型的常识能力■◆★■。

　　面对这一变化，该团队调整了数据生成流程。每当生成一批数据后■■◆★■，都会利用 DALL·E 进行测试◆■■■。

　　首先★◆■■，他们想出 10-20 条与常识相关的指令■★★★，然后让 GPT 对这些指令进行归类，从中提炼出初步的常识类别■■。

　　每个样本都包含一个指令★■◆■，生成图像之后将其内容与文本对齐，从而判断图像是否符合常识。

　　最关键的是，一旦大模型生成出高质量数据◆■■■，可以将这些样本反馈给模型，逐步提升其生成质量★■。

　　大模型批量生成的优点在于：一方面它能够大规模地生成数据，另一方面它的知识储备在提示词调优后非常广泛。

　　基于这些数据集，研究人员还构建了利用 GPT-4V 和 CLIP 进行自动评测的两条管线★★★■。

　　如果 DALL·E 无法正确生成部分数据，课题组就会将这些难以处理的数据整理出来■◆★★，作为样本输入 GPT，进一步生成新的数据。

　　基于此，课题组提出一项新颖的任务和基准■◆★★，以用于评估文本到图像（T2I, text-to-image）生成模型生成符合现实生活中常识的图像的能力，并将其称为常识-T2I★◆★■★。

　　为了判定一幅图像是否符合常识■◆★◆■★，他们需要将其内容文字化，这样才能与标准答案进行比较■★■。

　　起初■■◆◆，该团队手动编写了 100 条数据★■◆◆◆，但发现真正符合要求的并不多，且覆盖的类别范围狭窄。为此■◆■，他们决定让大模型批量生成数据■◆◆◆★◆。

　　举例来说，如果我们上传一张家里的狗狗图片，并指示模型生成★■★“在海边奔跑的狗”，生成的结果可能正确◆◆★◆★，但图中的狗却变成了另一只狗。

　　然而◆★■■◆★，GPT-4 Turbo 新版和 DALL·E 3 发布后，DALL·E 3 在这批数据集上的表现显著提升，正确率达到了 60%。

　　若能够基于类别来构建常识数据，效率将大大提高■◆◆，且测评结果能够更好地反映模型对各类常识的理解水平。

　　每个样本都有两个提示词，既能单独考察模型的常识水平■◆，又能通过对比突显问题。

　　通过这个过程，GPT 生成了十多个常见的常识类别。经过筛选研究人员最终归纳出五个主要类别★◆★：物理常识、生物常识、社会常识、动物常识和日常用品常识。

　　例如，给定短语◆■■◆★★“Fork in the road”，模型可能会生成◆★◆◆★“路上的叉子■◆■”■■■★，而非意指的“分叉的路口■◆★★”◆★■，这暴露了模型在理解人类常识方面的局限性。

　　最终一个步骤是模型测试。当他们发现 DALL·E 3 和 Stable Diffusion XL 两个前沿模型，在本次新数据集上遇到严峻挑战时，意味着数据集基本成型。

　　通过将图像内容转化为与文字对齐的嵌入，并与标准答案进行比较★■■■◆，他们利用多模态模型的能力对每个样本的生成结果进行了评估，从而得出平均得分■◆■。

　　接下来是构思测评方法。与测试语言模型的常识水平相比★■★★◆■，图像生成模型的测评更具挑战性。

　　然而◆■◆，研究人员发现自己难以穷尽所有的常识类别。为解决这个问题，课题组利用了大模型的少样本提示能力进行启发◆★■◆。

　　课题组遇到的第二个挑战是如何批量生成数据■◆★■。虽然他们知道数据量不会特别大，不过因为生成模型已经在训练过程中学习了许多常识信息，因此还是得先批量生成数据，再进行人工筛查■◆★■◆。

　　研究过程中，最让课题组难忘的时刻是 2023 年 11 月 DALL·E 3 的发布★◆，这一发布让本次研究进程延长了不少。

　　围绕这些问题，课题组开展了关于扩散模型常识的研究★◆★◆★■，旨在填补这一领域的空白。

　　最终■★★◆◆■，DALL·E 在这些新数据集上的表现降至 40% 左右★■，这说明该团队成功构建了一批极具挑战性的数据集■■◆■，从而能够助力于生成式 AI 的进一步发展。

　　通过多轮迭代和数据优化，研究人员最终构建出了一大批 DALL·E 难以生成的数据集。

　　首先■★◆■★，他们构建了一个适用于任何扩散模型的常识测试数据集◆■★■■，包含 150 组对照样本。

　　最后★■★■，通过本次数据集和评分结果◆■■，其揭示了当前主流模型在常识理解方面存在的问题。

　　部分原因是 DALL·E 3 会调用 GPT 来改写提示词，增加常识信息的可见度，例如 GPT 将“没有风的旗帜”改写为“耷拉下来的旗帜”。

　　接着，他们将这些类别和示例再次输入 GPT，借助其推理能力生成了其他相似类别。

　　首先是选题，该团队确定图像生成模型常识测评是一个比较新的课题，并借鉴了邻近领域的相关研究。

　　此外◆■◆，模型在社会常识的理解上也存在不足。例如■★★★■◆，在红灯的人行道上生成了一大批过马路的人◆■◆★。

　　他们通过构建一个新数据集，深入剖析模型在图像生成中的表现，为提升人工智能技术提供了科学依据★◆■◆◆。

　　研究人员表示，常识能力的提升具有广泛的应用场景，包括生成真实电影场景的扩散模型和生成各种媒介素材（如摄影和海报）的模型。

　　同时，DALL·E 3 自身的常识推理能力也得到了提升。因此◆■■，研究人员之前整理的大量数据集突然变得不再那么具挑战性。