头图

我推荐找数据集的网站,是国内的数据集搜索引擎:遇见数据集。

遇见数据集索引了国内外的大部分网站。首页有最新的数据集推荐:GitHub、Hugging Face、arXiv这些热门站点​,都属于日级别的更新。

这个站点是从搜索引擎方面去监控最新的数据集,大家如果有关注某个一个特点领域或话题的更新,可以关注这个站点:

https://www.selectdataset.com/

另外公开数据集网站

1、DataSearch :https://datasetsearch.research.google.com
2、OpenDatalab : https://opendatalab.com/
3、Kaggle :https://www.kaggle.com/
4、github:https ://github.com/Bio-Datasets/bio-datasets
5、huggingface :https://huggingface.co/datasets/arcee-ai/EvolKit-20k-vi
6、arXiv : https://arxiv.org/
7、魔搭社区:https://modelscope.cn/datasets
8、FindData:https://www.findata.cn/
9、DataCite Commons : https://commons.datacite.org/doi.org
10、MendeleyData: https://data.mendeley.com/
11、超神经:https://hyper.ai/cn
12、DataONE : https://search.dataone.org/data
13、Harvard Dataverse: https://dataverse.harvard.edu/
14、MagicHub开源社区:MagicHub - Datasets Download
15、DataCite Commons:https://commons.datacite.org/doi.org
16、Papers with Code :https://paperswithcode.com/
17、DataHub :DataHub
18:data.public.lu:https://data.public.lu/
19、帕依提提:https://www.payititi.com/
20、data.gov:https://catalog.data.gov/dataset
21、和鲸社区:https://www.heywhale.com/
22、data.europa:https://data.europa.eu/data/datasets?locale=en&minScoring=0
23、AI_Studio:https://aistudio.baidu.com/
24、Opendata cern:opendata.cern.ch
25、PANGAEA:https://www.pangaea.de/
26、极市:https://www.cvmart.net/
27、Roboflow:https://universe.roboflow.com/
28、IEEE:https://ieee-dataport.org/datasets
29、Stanford:http://snap.stanford.edu/data/
30、GBIF: https://www.gbif.org/dataset/search
31、阿里云天池:https://tianchi.aliyun.com/

比如,我要找蛋白质的数据集,我就打开遇见数据集-让每个数据集都被发现,让每一次遇见都有价值,输入蛋白质。

页面上会有一些提示,看有没有自己想要,直接选择。

图片
结果返回太多了,有10000+,量有点大。
图片

哦,对了,有一个比较好的功能,不仅能返回数据集,还有企业和机构。来,让你瞅瞅。

图片

比如点击这家 国信专达(杭州)科技有限公司,就有这家公司的介绍和相关数据集

图片

接下来就是比较关心的数据集的展示情况,展示的内容还蛮丰富的,总会超出预期,让人眼前一亮。哦,原来是这样。涨知识了。

图片

比如这个数集: PDB|生物信息学数据集|蛋白质结构数据集

图片

图片

图片

图片

图片

一、遇见数据集解决了哪些问题:

1、一站式数据获取平台
遇见数据集通过集中整合全球数据资源,为用户提供了一个一站式平台,使得用户能够轻松搜索和访问各种数据集,无需在多个来源之间进行切换,从而提高了数据获取的效率。
2、数据的可发现性
平台通过详细的数据标签和分类系统,增强了数据集的可发现性,帮助用户快速找到特定领域的数据集,尤其是对于特定研究领域或应用场景的数据,极大地方便了数据的检索和使用。
3、数据更新的及时性
遇见数据集频繁更新数据集内容,确保用户能够获取最新的数据资源,这对于需要最新数据进行分析和研究的用户来说尤为重要,保证了数据的效性和相关性。
4、集成大模型问答功能
遇见数据集计划集成大模型问答功能,进一步提升用户体验和数据获取的效率,使得用户能够通过自然语言查询快速找到所需的数据集。

二、遇见数据集特点:

1、全球数据资源整合
提供来自全球的数据集,覆盖多个国家和地区,满足不同用户的国际数据需求。

2、多领域覆盖:
数据集涉及人脸识别、自动驾驶、图像识别等多个领域,满足不同行业和研究的需求。

3、数据标签与分类系统:
通过详细的数据标签和分类,用户可以快速定位和检索特定领域的数据集。

4、更新及时与内容丰富:
数据集更新频繁,保持内容的时效性,确保用户能够获取最新的数据资源。

5、集成大模型问答功能
遇见数据集集成大模型问答功能,进一步提升用户体验和数据获取的效率,使得用户能够通过自然语言查询快速找到所需的数据集。
6、用户友好的界面
遇见数据集拥有一个友好的用户界面,使得查找和使用数据集变得简单直观,无论是科研人员、开发者还是数据分析师,都能轻松上手使用。

图片


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。