研究人员打造新型数据集助力评估扩散模型常识能力

  例如,许多模型在物理常识方面表现较差,生成的图像往往与常识相悖:■◆◆★★“没有风的旗帜”在模型看来似乎仍然是飘扬的;而■◆■◆“水中的铅笔◆◆◆◆★”则被误认为是笔直的。

  在对扩散模型的调研中,他们识别出了两个最具挑战性的问题:基于对象的图像编辑和常识性图像生成。前者涉及到如何在修改图像内容的同时,保持图中主人公的特征不变。

  2023 年 8 月,课题组制定了研究目标,并决定构建一个数据集■◆◆,以便设计出可以为任何模型打分的方法■★★■。

  为了探究这一领域的前沿,美国宾夕法尼亚大学的研究团队开展了一项研究,旨在评估扩散模型的常识能力■◆★■。

  面对这一变化,该团队调整了数据生成流程。每当生成一批数据后■■◆★■,都会利用 DALL·E 进行测试◆■■■。

  首先★◆■■,他们想出 10-20 条与常识相关的指令■★★★,然后让 GPT 对这些指令进行归类,从中提炼出初步的常识类别■■。

  每个样本都包含一个指令★■◆■,生成图像之后将其内容与文本对齐,从而判断图像是否符合常识。

  最关键的是,一旦大模型生成出高质量数据◆■■■,可以将这些样本反馈给模型,逐步提升其生成质量★■。

  大模型批量生成的优点在于:一方面它能够大规模地生成数据,另一方面它的知识储备在提示词调优后非常广泛。

  基于这些数据集,研究人员还构建了利用 GPT-4V 和 CLIP 进行自动评测的两条管线★★★■。

  如果 DALL·E 无法正确生成部分数据,课题组就会将这些难以处理的数据整理出来■◆★★,作为样本输入 GPT,进一步生成新的数据。

  基于此,课题组提出一项新颖的任务和基准■◆★★,以用于评估文本到图像(T2I, text-to-image)生成模型生成符合现实生活中常识的图像的能力,并将其称为常识-T2I★◆★■★。

  为了判定一幅图像是否符合常识■◆★◆■★,他们需要将其内容文字化,这样才能与标准答案进行比较■★■。

  起初■■◆◆,该团队手动编写了 100 条数据★■◆◆◆,但发现真正符合要求的并不多,且覆盖的类别范围狭窄。为此■◆■,他们决定让大模型批量生成数据■◆◆◆★◆。

  举例来说,如果我们上传一张家里的狗狗图片,并指示模型生成★■★“在海边奔跑的狗”,生成的结果可能正确◆◆★◆★,但图中的狗却变成了另一只狗。

  然而◆★■■◆★,GPT-4 Turbo 新版和 DALL·E 3 发布后,DALL·E 3 在这批数据集上的表现显著提升,正确率达到了 60%。

  若能够基于类别来构建常识数据,效率将大大提高■◆◆,且测评结果能够更好地反映模型对各类常识的理解水平。

  每个样本都有两个提示词,既能单独考察模型的常识水平■◆,又能通过对比突显问题。

  通过这个过程,GPT 生成了十多个常见的常识类别。经过筛选研究人员最终归纳出五个主要类别★◆★:物理常识、生物常识、社会常识、动物常识和日常用品常识。

  例如,给定短语◆■■◆★★“Fork in the road”,模型可能会生成◆★◆◆★“路上的叉子■◆■”■■■★,而非意指的“分叉的路口■◆★★”◆★■,这暴露了模型在理解人类常识方面的局限性。

  最终一个步骤是模型测试。当他们发现 DALL·E 3 和 Stable Diffusion XL 两个前沿模型,在本次新数据集上遇到严峻挑战时,意味着数据集基本成型。

  通过将图像内容转化为与文字对齐的嵌入,并与标准答案进行比较★■■■◆,他们利用多模态模型的能力对每个样本的生成结果进行了评估,从而得出平均得分■◆■。

  接下来是构思测评方法。与测试语言模型的常识水平相比★■★★◆■,图像生成模型的测评更具挑战性。

  然而◆■◆,研究人员发现自己难以穷尽所有的常识类别。为解决这个问题,课题组利用了大模型的少样本提示能力进行启发◆★■◆。

  课题组遇到的第二个挑战是如何批量生成数据■◆★■。虽然他们知道数据量不会特别大,不过因为生成模型已经在训练过程中学习了许多常识信息,因此还是得先批量生成数据,再进行人工筛查■◆★■◆。

  研究过程中,最让课题组难忘的时刻是 2023 年 11 月 DALL·E 3 的发布★◆,这一发布让本次研究进程延长了不少。

  围绕这些问题,课题组开展了关于扩散模型常识的研究★◆★◆★■,旨在填补这一领域的空白。

  最终■★★◆◆■,DALL·E 在这些新数据集上的表现降至 40% 左右★■,这说明该团队成功构建了一批极具挑战性的数据集■■◆■,从而能够助力于生成式 AI 的进一步发展。

  通过多轮迭代和数据优化,研究人员最终构建出了一大批 DALL·E 难以生成的数据集。

  首先■★◆■★,他们构建了一个适用于任何扩散模型的常识测试数据集◆■★■■,包含 150 组对照样本。

  最后★■★■,通过本次数据集和评分结果◆■■,其揭示了当前主流模型在常识理解方面存在的问题。

  部分原因是 DALL·E 3 会调用 GPT 来改写提示词,增加常识信息的可见度,例如 GPT 将“没有风的旗帜”改写为“耷拉下来的旗帜”。

  接着,他们将这些类别和示例再次输入 GPT,借助其推理能力生成了其他相似类别。

  首先是选题,该团队确定图像生成模型常识测评是一个比较新的课题,并借鉴了邻近领域的相关研究。

  此外◆■◆,模型在社会常识的理解上也存在不足。例如■★★★■◆,在红灯的人行道上生成了一大批过马路的人◆■◆★。

  他们通过构建一个新数据集,深入剖析模型在图像生成中的表现,为提升人工智能技术提供了科学依据★◆■◆◆。

  研究人员表示,常识能力的提升具有广泛的应用场景,包括生成真实电影场景的扩散模型和生成各种媒介素材(如摄影和海报)的模型。

  同时,DALL·E 3 自身的常识推理能力也得到了提升。因此◆■■,研究人员之前整理的大量数据集突然变得不再那么具挑战性。