作者|ANALYTICS VIDHYA
编译|Flin
来源|analyticsvidhya
介绍
数据科学(机器学习)项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学,还可以在自己的简历上展示一些项目!
如今,招聘人员通过他/她的工作来评估应聘者的潜力,而不是将重点放在认证上。如果你没有什么东西可以告诉他们,那也没关系!这是大多数人挣扎和错过的地方。
你以前可能曾处理过几个问题,但是如果你无法使其表现得那么好且易于解释,那么究竟有什么人会知道你的能力呢?这些项目将为你提供帮助。想想你将花费在这些项目上的时间,例如培训课程。练习花费的时间越多,你就会变得更好!
我们确保为你提供不同领域的各种问题。我们认为,每个人都必须学习如何巧妙地处理大量数据,因此其中包括大型数据集。另外,我们确保所有数据集都是开放的并且可以自由访问。
有用的信息
为了帮助你确定从何处开始,我们将该列表分为3个级别,即:
初级: 此级别包含相当容易使用的数据集,并且不需要复杂的数据科学技术。你可以使用基本回归或分类算法来解决它们。而且,这些数据集有足够的开放教程来帮助你入门。在此列表中,我们还提供了可帮助你入门的教程。你还可以同时查看AV的“数据科学入门 ”课程!
- 中级:此级别包含本质上更具挑战性的数据集。它由中型和大型数据集组成,需要一些认真的模式识别技能。此外,功能工程将在这里有所作为。机器学习技术的使用没有限制;阳光下的一切都可以使用。
- 高级:此级别最适合理解高级主题(如神经网络,深度学习,推荐系统等)的人员。此处还提供了高维数据集。另外,这是时候发挥创造力了。查看最佳数据科学家将其带入他们的工作和代码的创造力。
目录
初级
- 虹膜数据
- 贷款预测数据
- Bigmart销售数据
- 波士顿住房数据
- 时间序列分析数据
- 葡萄酒质量数据
- Turkiye学生评估数据
- 身高体重数据
中级
- 黑色星期五数据
- 人类活动识别数据
- 暹罗比赛数据
- 行程记录数据
- 百万首歌曲数据
- 人口普查收入数据
- 电影镜头数据
- Twitter分类数据
高级
- 识别你的数字
- 城市声音分类
- Vox名人资料
- ImageNet数据
- 芝加哥犯罪数据
- 印度演员数据的年龄检测
- 推荐引擎数据
- VisualQA数据
初级
1.虹膜数据集
这可能是模式识别文献中最通用、最简单、资源最丰富的数据集。没有什么比虹膜数据集学习分类技术更简单的了。如果你是全新的数据科学学习生,这将成为你的起点。数据只有150行4列。
问题:根据可用属性预测花朵的类别。
开始:获取数据:https://archive.ics.uci.edu/m...
教程:http://www.slideshare.net/tho...
让我们看一下Iris数据,并在下面的“实时编码”窗口中构建一个Logistic回归模型。
https://id.analyticsvidhya.co...://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
2.贷款预测数据集
在所有行业中,保险领域是分析和数据科学方法最大的用途之一。该数据集使你可以从保险公司的数据集中进行操作,那里面临着哪些挑战,使用了什么策略,哪些变量影响了结果等等。这是一个分类问题。数据有615行和13列。
问题:预测贷款是否会获得批准。
开始:获取数据:https://datahack.analyticsvid...
教程:https://www.analyticsvidhya.c...
让我们看一下“贷款”数据并在下面的“实时编码”窗口中构建一个Logistic回归模型。
https://id.analyticsvidhya.co...://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
3. Bigmart销售数据集
零售是另一个广泛使用分析来优化业务流程的行业。使用数据科学技术可以巧妙地处理诸如产品放置,库存管理,自定义报价,产品捆绑等任务。顾名思义,该数据包含销售商店的交易记录。这是一个回归问题。数据具有12个变量的8523行。
问题:预测商店的销售额。
开始:获取数据:https://datahack.analyticsvid...
教程:https://www.analyticsvidhya.c...
让我们看一下Big Mart销售数据,并在下面的“实时编码”窗口中构建线性回归模型。
https://id.analyticsvidhya.co...://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
4.波士顿住房数据集
这是模式识别文献中另一个流行的数据集。数据集来自美国波士顿的房地产行业。这是一个回归问题。数据具有506行和14列。因此,这是一个相当小的数据集,你可以在其中尝试任何技术而不必担心笔记本电脑的内存被过度使用。
问题:预测业主占有的房屋的价值中值。
开始:获取数据:https://www.cs.toronto.edu/~d...
教程:https://www.analyticsvidhya.c...
5.时间序列分析数据集
时间序列是数据科学中最常用的技术之一。它具有广泛的应用程序——天气预报,预测销售,分析逐年趋势等。此数据集特定于时间序列,而此处的挑战是以一种运输方式预测交通量。数据具有行和列。
问题:以新的运输方式预测交通量。
开始:获取数据:https://datahack.analyticsvid...
教程:https://trainings.analyticsvi...:AnalyticsVidhya+TS_101+TS_term1/about
6.葡萄酒质量数据集
这是数据科学初学者中最受欢迎的数据集之一。它分为2个数据集。你可以对此数据执行回归和分类任务。它将测试你在不同领域的理解能力——异常检测,特征选择和不平衡数据。该数据集中有4898行和12列。
问题:预测葡萄酒的质量。
开始:获取数据:https://archive.ics.uci.edu/m...
教程:https://web.stanford.edu/~ilk...
7. Turkiye学生评估数据集
该数据集基于学生针对不同课程填写的评估表。它具有不同的属性,包括出勤率,难度,每个评估问题的得分等。这是一个无监督的学习问题。数据集有5820行和33列。
问题:使用分类和聚类技术来处理数据。
开始:获取数据:https://archive.ics.uci.edu/m...://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation
教程:https://sanghosuh.github.io/r...
8.身高和体重数据集
这是一个相当简单的问题,非常适合刚开始使用数据科学的人们。这是一个回归问题。数据集具有25,000行和3列(索引,高度和权重)。
问题:预测一个人的身高或体重。
开始:获取数据:http://wiki.stat.ucla.edu/soc...
教程:https://www3.nd.edu/~steve/co...
中级
1.黑色星期五数据集
该数据集包含在零售商店捕获的销售交易。这是一个经典的数据集,可从多种购物体验中探索和扩展你的特殊工程技能以及日常理解能力。这是一个回归问题。数据集具有550,069行和12列。
问题: 预测购买金额。
开始:获取数据:https://datahack.analyticsvid...
教程:https://discuss.analyticsvidh...
2.人类活动识别数据集
该数据集是从通过嵌入式智能惯性传感器启用的智能手机捕获的30个人物的记录中收集的。许多机器学习课程将这些数据用于教学目的。轮到你了。这是一个多分类问题。数据集有10,299行和561列。
问题:预测人类的活动类别。
开始:获取数据:http://archive.ics.uci.edu/ml...
教程:https://rstudio-pubs-static.s...
3.文本挖掘数据集
该数据集最初来自2007年举行的暹罗文字采矿比赛。该数据包含描述某些飞行中出现的问题的航空安全报告。这是一个多分类的高维问题。它具有21,519行和30,438列。
问题:根据文档的标签对文档进行分类。
开始:获取数据:http://www.csie.ntu.edu.tw/~c...
教程:https://wtlab.um.ac.ir/images...
4.行程历史数据集
该数据集来自美国的自行车共享服务。此数据集要求你锻炼专业数据处理技能。该数据从2010年第四季度开始按季度提供。每个文件有7列。这是一个分类问题。
问题:预测用户类别。
开始:获取数据:https://www.capitalbikeshare....
教程:https://www.analyticsvidhya.c...
5.百万首歌曲数据集
你知道数据科学也可以用于娱乐行业吗?自己动手吧!该数据集提出了回归任务。它由5,15,345个观测值和90个变量组成。但是,这只是大约一百万首歌曲的原始数据数据库的一小部分 。
问题:预测歌曲的发行年份。
开始:获取数据:http://archive.ics.uci.edu/ml...
教程:http://www-personal.umich.edu...
6.人口普查收入数据集
这是一个不平衡的分类,是一个经典的机器学习问题。你知道,机器学习已广泛用于解决不平衡的问题,例如癌症检测,欺诈检测等。现在是时候自己动手了。数据集具有48,842行和14列。作为指导,你可以检查此不平衡的数据项目。
问题:预测美国人口的收入等级。
开始:获取数据:http://archive.ics.uci.edu/ml...
教程:https://cseweb.ucsd.edu/~jmca...
7.电影镜头数据集
你是否已建立推荐系统?这是你的机会!该数据集是数据科学行业中最受欢迎和引用最多的数据集之一。它有各种尺寸。在这里,我使用了相当小的尺寸。它在4,000部电影中获得6,000名用户的100万收视率。
问题:向用户推荐新电影。
开始:获取数据:http://grouplens.org/datasets...
教程:https://www.analyticsvidhya.c...
8. Twitter分类数据集
使用Twitter数据已成为情感分析问题不可或缺的一部分。如果你想在这一领域为自己开拓一片天地,那么你将很乐于应对该数据集带来的挑战。数据集大小为3MB,具有31,962条推文。
问题:识别哪些是仇恨推特,哪些不是。
开始:获取数据:https://datahack.analyticsvid...
教程:https://github.com/abdulfatir...
高级
1.确定你的位数数据集
该数据集使你可以研究,分析和识别图像中的元素。这就是相机使用图像识别来检测你的脸的方式!现在轮到你构建和测试该技术了。这是一个数字识别问题。该数据集包含7,000张28 X 28大小的图像,总计31MB。
问题:识别图像中的数字。
开始:获取数据:https://datahack.analyticsvid...
教程:https://www.analyticsvidhya.c...
2.城市声音分类
当你开始机器学习之旅时,你会遇到简单的机器学习问题,例如泰坦尼克号生存预测。但是,对于现实生活中的问题,你仍然没有足够的练习。因此,此练习问题旨在向你介绍常规分类情况下的音频处理。该数据集包含10个类别的8,732个城市声音的声音摘录。
问题:从音频中分类声音的类型。
开始:获取数据:https://datahack.analyticsvid...
教程:https://www.analyticsvidhya.c...
3. Vox名人数据集
音频处理正迅速成为深度学习的重要领域,因此这是另一个具有挑战性的问题。此数据集用于大规模的说话人识别,包含从YouTube视频中提取的名人所说的单词。这是用于分离和识别语音的有趣用例。数据包含1,251位名人所说的100,000次讲话。
问题:找出声音属于哪个名人。
开始:获取数据:http://www.robots.ox.ac.uk/~v...
教程:https://www.robots.ox.ac.uk/~...
4. ImageNet数据集
ImageNet提供了各种问题,包括对象检测,定位,分类和屏幕解析。所有图像均可免费获得。你可以搜索任何类型的图像并围绕该图像构建项目。截止到目前,该图像引擎已经拥有超过1500万张多种形状的图像,大小高达140GB。
问题:要解决的问题取决于你下载的图像类型。
开始:获取数据:http://image-net.org/download...
教程:http://image-net.org/download...
5.芝加哥犯罪数据集
如今,每位数据科学家都希望能够处理大型数据集。当公司在整个数据集上具有计算能力时,他们不再喜欢使用样本。该数据集为你提供了在本地计算机上处理大型数据集所需的实际经验。问题很容易,但是数据管理才是关键!该数据集具有600万个观测值。这是一个多分类问题。
问题:预测犯罪类型。
开始:获取数据: https://data.cityofchicago.or...
教程:http://nathanwayneholt.com/ma...
6.印度演员年龄数据集
对于任何深度学习爱好者来说,这都是一个吸引人的挑战。数据集包含数千个印度演员的图像,你的任务是确定他们的年龄。手动选择所有图像,并从视频帧中裁剪所有图像,这导致了比例,姿势,表情,年龄,分辨率,遮挡和化妆具有高度的可变性。训练集中有19,906张图像,测试集中有6,636张图像。
问题:预测演员的年龄。
开始:获取数据:http://image-net.org/download...
教程:https://www.analyticsvidhya.c...
7.推荐引擎数据集
这是一个高级推荐系统的挑战。在这个实践问题中,将为你提供程序员的数据和他们先前已解决的问题,以及他们解决该特定问题所花费的时间。作为数据科学家,你建立的模型将帮助在线评委决定下一级的问题推荐给用户。
问题:根据用户的当前状态,预测解决问题所需的时间。
开始:获取数据:https://datahack.analyticsvid...
8. VisualQA数据集
VisualQA是一个数据集,其中包含有关图像的开放式问题。这些问题需要有对计算机视觉和语言的理解。这个问题有一个自动的评估指标。数据集包含265,016张图像,每张图像3个问题,每个问题10个真实答案。
问题:使用深度学习技术回答有关图像的开放性问题。
开始:获取数据:http://www.visualqa.org/
教程:https://arxiv.org/abs/1708.02711
尾注
在上面列出的24个数据集中,你应该首先找到一个与你的技能组匹配的数据集。如果你是机器学习的初学者,请避免从一开始就使用高级数据集。不要咬一个超过你咀嚼能力的东西,不要对仍然要做的事情感到不知所措。相反,应专注于逐步取得进展。
完成2-3个项目后,在简历和GitHub个人资料上展示它们(非常重要!)。如今,许多招聘人员通过检查GitHub个人资料来招聘候选人。你的动机不应该是完成所有项目,而应根据要解决的问题,领域和数据集大小挑选出一些项目。如果你想查看完整的项目解决方案,请阅读此文章:
你觉得这篇文章有用吗?你是否已经在这些数据集上构建了任何项目?请在下面的评论部分中分享你的经验,学习和建议。
原文链接:https://www.analyticsvidhya.c...
欢迎关注磐创AI博客站:
http://panchuang.net/
sklearn机器学习中文官方文档:
http://sklearn123.com/
欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。