头图

2024-10-30,由Spawning台创建的Public Domain 12M(PD12M)数据集,包含了1240万张高质量的公共领域和CC0许可的图像及其合成标题,旨在训练文本到图像的模型。这个数据集不仅规模巨大,能够训练基础模型,同时最小化版权问题,还引入了社区驱动的数据治理机制,以减少伤害并支持数据的可复制性。

数据集地址:Public Domain 12M|文本到图像生成数据集|AI训练数据集数据集

一、研究背景:

随着计算机视觉和自然语言处理的进步,对大规模图像-文本数据集的需求日益增长,以训练越来越复杂的模型。然而,现有的大规模数据集通常由网络爬虫识别的URL组成,需要模型训练者从网络重新下载图像,这种做法因优先考虑规模而非责任而受到批评,并引发了版权侵犯、同意问题、不适当内容、个人身份信息(PII)和有害偏见等一系列问题。

目前遇到困难和挑战:

1、版权侵犯:大规模数据集常常包含未经授权的图像,引发版权问题。

2、内容和隐私问题:数据集中可能包含不适当内容和个人身份信息,引发隐私和安全问题。

3、数据集的持续性和治理:一旦发布,数据集会随时间退化,且难以对其内容进行补救。

二、让我们一起来看一下Public Domain 12M

PD12M是一个包含1240万张公共领域和CC0许可的高质量图像及其合成标题的大型数据集,专为训练文本到图像模型而设计。

PD12M的数据来源包括画廊、图书馆、档案馆、博物馆(GLAM)以及Wikimedia Commons等,通过精心筛选和治理,确保了数据的质量和安全性。数据集的构建过程涵盖了从图像收集、版权验证、图像下载、内容过滤到字幕生成等多个步骤。

数据集构建:

1、图像收集:直接从GLAM机构和Wikimedia Commons等来源获取图片,并使用自定义解析器提取图片的出处、元数据和授权信息。

2、版权验证:确保所有图片都明确标记为公共领域或CC0。

3、内容过滤:使用自动化和手动过滤确保数据集的整体质量和安全性。

4、字幕生成:使用Florence-2-large模型为每张图像生成详细的合成标题

数据集特点:

1、高质量和版权合规:所有图片均来自公共领域或具有CC0许可,确保了使用的合法性。

2、大规模:拥有1240万张图像,是目前最大的公共领域图像-文本数据集。

3、社区驱动的治理:通过Source.Plus平台引入社区驱动的数据治理机制,以支持数据集的持续改进和维护。

基准测试 :

PD12M数据集的基准测试涉及使用数据集训练模型,并评估其在图像识别和生成任务中的性能

图片

图片
突出主要差异的主要图像文本数据集的比较。虽然一些数据集试图通过 CC 源解决许可问题或通过 Web 抓取解决规模问题,但 PD12M 独特地结合了明确的许可和正式的治理机制,以实现持续的数据集维护

图片

三、让我们一起展望PD12M数据集应用场景

比如,你是一个教育工作者,需要制作一个关于自然历史的互动展览。

展览名称:《自然奥秘:从冰川到雨林》

  1. 展览概念: 《自然奥秘:从冰川到雨林》是一个互动展览,旨在通过PD12M数据集中的图像,带领孩子们穿越不同的自然生态系统,从寒冷的冰川到热带雨林,探索生物多样性和生态系统的复杂性。 2. 展览布局:

入口区:以一幅巨大的冰川图像作为背景,孩子们一进入就能感受冰川的壮丽。

冰川区:展示冰川生态系统的图片,包括极地动物如企鹅、北极熊等。

森林区:通过森林生态系统的图片,展示各种树木和野生动物。

草原区:展示草原上的动物和植物,如羚羊、斑马和长颈鹿。

沙漠区:展示沙漠生态系统的图片,包括仙人掌和骆驼等。

热带雨林区:以丰富的热带雨林生物图像结束展览,包括各种色彩斑斓的鸟类、昆虫和植物。

  1. 互动体验:

触摸屏探索:每个区域都设有触摸屏,孩子们可以点击查看每种生物的详细信息,包括它们的生活习性、食物链位置等。

AR体验:利用增强现实技术,孩子们可以通过平板电脑看到3D模型的动物在现实空间中移动,甚至与它们互动。

生态游戏:设计生态平衡游戏,孩子们可以通过选择不同行为(如种植树木、减少污染)来看到对生态系统的影响。

故事角:设置一个故事角,讲述PD12M数据集中某些图片背后的故事,比如某个物种的保护历程。

  1. 教育活动:

工作坊:定期举办工作坊,让孩子们在专家的指导下,使用PD12M中的图像进行自然艺术创作。

讲座:邀请生物学家和环保人士,就生态系统保护和生物多样性的重要性进行讲座。

导览:提供导览服务,由教育工作者解释每个生态系统的重要性和当前面临的挑战。

  1. 展览特色:

图像故事:每张图片都配有一个二维码,孩子们扫描后可以听到该图片背后的故事,比如摄影师是如何在极地拍摄到北极熊的。

环保信息:展览中穿插环保信息,让孩子们了解保护自然的重要性,并鼓励他们在日常生活中采取行动。

互动问答:设置互动问答环节,鼓励孩子们提出问题,并在展览结束时获得答案。

  1. 展览结束:

承诺墙:展览的最后是一个承诺墙,孩子们可以写下他们对保护自然的承诺,并贴在墙上,以此结束他们的自然之旅。

通过这个展览,孩子们不仅能够欣赏到自然界的美丽,还能学习到保护环境的重要性,激发他们对自然和科学的兴趣。

来吧,让我们走近:Public Domain 12M|文本到图像生成数据集|AI训练数据集数据集


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。