2020 年面向初学者的 9 个数据科学项目

作者：Rashi Desai
翻译：疯狂的技术宅

原文：https://towardsdatascience.co...

如果你对对数据分析、数据科学或是与数据相关的东西感兴趣，可以通过下面的清单来学习。

1. 信用卡欺诈检测

预计到 2022 年，拥有信用卡的人数将会接近 12 亿。为了确保信用卡交易的安全性，必须对其活动进行有效的监视。信用卡公司应该能够识别出欺诈性的信用卡交易，从而不会向客户收取未购买商品的费用。

信用卡数据集中包含欺诈和非欺诈交易的组合，目标是预测给定的测试交易是否存在欺诈。

要使用的算法：

由于目标变量是分类变量，所以可以使用以下一系列机器学习算法来解决该问题：

逻辑回归
决策树
神经网络

示例代码

2. 客户细分

客户细分是把客户分成多个群体的过程，这些群体在产品的销售或营销的方式上具有相似性，例如性别、年龄、兴趣、人口统计资料、经济状况、地理位置、行为方式、消费习惯以及其他更多维度。

客户细分是“无监督学习”的最重要应用之一。通过聚类技术，公司可以确定客户的细分市场，从而使他们可以定位潜在的用户群。

公司通过聚类过程来预见或映射具有类似行为的客户群，用来识别和定位潜在的用户群。

要使用的算法：

K-均值聚类，分层聚类是最主要的聚类方法。还有一些其他的聚类算法：

分割法（Partitioning method）
模糊聚类（Fuzzy clustering）
基于密度的聚类
基于模型的聚类

另外一旦收集了数据，公司就能够更深入地了解客户的喜好，并发现有价值的细分市场的需求，从而使他们获得最大的利润。这使他们能够更有效地制定营销策略，并最大程度地降低投资风险。

示例代码

3. 情感分析

情感被定义为对某一情况或事件的看法或态度；意见是数据科学领域中至关重要的话题。由于它在当今的社交媒体时代具有很大的关联性，并且可以解决许多商业问题，所以成为该领域最热门的话题之一。

借助情感分析，你可以发现文档、网站、社交媒体的时间线中所反映的观点的性质。人们应该具有快乐、悲伤、愤怒、积极或消极、沮丧、仇恨、爱等各种情感。

在当今时代，任何数据驱动型的组织都必须重视情感分析模型的结果，借此确定其客户的态度，并针对产其品或服务定位目标客户。

一些情报机构会对 Twitter 进行情绪分析以获取情报。

要使用的算法：

朴素贝叶斯
决策树
Tidytext 包

示例代码

4. 语音情感识别

在人类的活动中，言语、场景、产品或体验所附带的情感决定着很多事情。

SER（语音情感识别 Speech Emotion Recognition）可以说是今年夏天一项引人注目的数据科学项目。它试图从语音（语音样本）中感知人类的情感。另外为了感知到人的情感，还将不同的声音文件用作数据集。 SER 本质上是从录音中提取情感，并专注于特征提取。

在用 Python 处理项目时，你还可以通过用于分析音乐和音频的 Librosa 包积累知识。

Vox 名人数据集可以成为执行语音情感识别的良好起点。

用到的算法：

卷积神经网络（CNN）
.递归神经网络（RNN）
神经网络（NN）
高斯混合模型（GMM）
支持向量机（SVM）

示例代码

5.预测分析

预测分析的目的是对未来的事件进行预测。

它涵盖了预测模型、机器学习和数据挖掘等各种统计技术，可以通过分析当前和历史数据来识别风险和机会。

例子：

贷款预测数据：预测贷款是否会得到批准
预测 HVAC 需求：将天气预报与建筑系统相结合
客户关系管理
临床决策支持系统
客户和员工保持率和流失率
项目风险管理

示例代码

6. 时间序列分析和建模

时间序列是按时间顺序进行索引，把一系列数据点列出或绘制在图形中。

时间序列是数据科学中最常用的技术之一，有着广泛的应用范围，包括天气预报、预测销售、分析年趋势、预测吸引力、网站访问量、比赛排名等。

商业机构一次又一次地用 kon 时间序列数据来分析未来的数字。

通过时间序列分析，我们可以得到每小时观看的广告、每天在游戏中的花销、产品趋势的变化等。

示例代码

7. 回归分析

回归分析的目的是根据历史数据预测结果。

回归分析是一种强大的统计检验，可以检查两个或多个目标变量之间的关系。尽管回归分析的类型有很多，但它们的核心都是检查一个或多个自变量对目标（因变量）的影响。

例子：

沃尔玛销售数据：预测商店的销售
波士顿住房数据：预测自有住房的中位数
葡萄酒质量预测：预测葡萄酒的质量
黑色星期五销售预测：预测一个家庭的购买金额

用到的算法：

这取决于目标变量的性质：是数字还是分类

CART——因子目标
决策树——因子目标
线性回归——数字目标
逻辑回归——因子目标

8. 推荐系统

推荐系统是一个使用过滤过程，并根据用户的偏好和喜好提供各种内容的平台。

推荐系统把相关用户的信息作为输入，并使用机器学习模型从参数评估中返回建议。从 Amazon 到 Zappos，推荐系统无处不在。这是一种数据科学家需要了解的典型的机器学习算法。

例如，Netflix 能够为你推荐和浏览历史记录相似的电影或节目，或是与你爱好相似的其他用户过去看过的电影或节目。

推荐系统有两种类型-

基于内容的推荐系统：基于用户的数据提供有代表意义的推荐。根据该数据生成用户配置文件，然后将其用于向用户提出建议。当用户提供更多的数据输入或着对建议采取行动时，引擎将会变得越来越准确。
协作过滤建议：提供与可能有着相似浏览历史或首选项的其他用户相关的建议。

示例代码

9. 探索性数据分析

探索性数据分析（EDA）实际上是数据分析过程中的第一步。通过它你可以充分利用所拥有的数据，弄清楚你想问什么问题，如何构架，最好地操纵它来获取所需要的答案。

EDA 用视觉和定量方法在现有数据中展示广泛的模式、趋势、离群值、意外结果等。探索性数据分析可以完成很多项目。在此我列出一些参考，或许能成为你的一个良好起点。

例子：

全球自杀率（数据集）
夏季奥运会模型（数据集）
世界幸福报告（数据集）
麦当劳菜单的营养成分（数据集）

更多文章请关注公众号：

2020 年面向初学者的 9 个数据科学项目

1. 信用卡欺诈检测

示例代码

2. 客户细分

示例代码

3. 情感分析

示例代码

4. 语音情感识别

示例代码

5.预测分析

示例代码

6. 时间序列分析和建模

示例代码

7. 回归分析

8. 推荐系统

示例代码

9. 探索性数据分析

例子：

疯狂的技术宅

引用和评论

为什么浮点数运算会产生误差

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践