用 LLaMA-3 重新标注数十亿张 Web 图像会怎样?

加州大学圣克鲁兹分校、爱丁堡大学、约翰霍普金斯大学等机构联合发布研究成果

来自加州大学圣克鲁兹分校、爱丁堡大学、约翰霍普金斯大学等机构的研究人员近日发表了一项重要研究成果,展示了利用强大的开源大型语言模型 LLaMA-3 重新标注海量网络图像,并显著提升视觉语言模型性能的潜力。

网络爬取的图像-文本对通常包含大量噪音,而对这些数据进行语义对齐和文本描述丰富化,能够有效提升视觉语言模型在文本到图像生成等多种任务上的表现。然而,这一领域的大规模研究大多封闭源代码,阻碍了学术界进一步的探索。

为了推动这一领域的发展,研究团队利用了 LLaMA-3,一款与 GPT-4 相媲美的开源大型语言模型,开发了一套简单高效的重新标注流程:首先,他们利用 LLaMA-3-8B 训练了一个名为 LLaVA-1.5 的视觉语言模型,然后用该模型对 DataComp-1B 数据集中的约 13 亿张图像进行重新标注。

Recaption Pipeline

研究结果显示,经过重新标注后的数据集 Recap-DataComp-1B 在训练视觉语言模型方面展现出显著优势:

  • 提升判别模型性能: 在 CLIP 模型上,Recap-DataComp-1B 显著提升了跨模态检索任务中的零样本性能。
  • 增强生成模型表现: 在文本到图像生成模型 DiT 中,使用 Recap-DataComp-1B 训练的模型,能够生成更加符合用户文本指令的图像,尤其是在处理复杂查询时表现出色。

该研究团队已公开发布 Recap-DataComp-1B 数据集,为学术界和工业界提供了一个宝贵的资源,为更强大、更精准的视觉语言模型的研发奠定了基础。

主要亮点:

  • 利用 LLaMA-3 重新标注了 DataComp-1B 数据集中的 13 亿张图像,并将其命名为 Recap-DataComp-1B。
  • Recap-DataComp-1B 在训练视觉语言模型方面表现出显著优势,提升了判别模型和生成模型的性能。
  • 公开发布 Recap-DataComp-1B 数据集,为学术界和工业界提供了一个宝贵的资源。

联系方式:

关于研究团队:

该研究由加州大学圣克鲁兹分校、爱丁堡大学、约翰霍普金斯大学、Adobe 和德克萨斯大学奥斯汀分校的研究人员共同完成。

术语说明:

  • LLaMA-3: Meta 公司开发的一种开源大型语言模型。
  • LLaVA: 一种视觉语言模型。
  • DataComp-1B: 一个包含 13 亿张图像和文本对的数据集。
  • Recap-DataComp-1B: 使用 LLaMA-3 重新标注后的 DataComp-1B 数据集。
  • CLIP: 一种图像-文本对齐模型。
  • DiT: 一种文本到图像生成模型。