后端 - 机器学习 - 个人文章

title: 机器学习要领

机器学习要领

机器学习就是让计算机摸清中间的套路然后从中找到规律，在深度学习的今天机器学习依然能够有较大的热度，有以下原因：

机器学习比较直观，其结果人类可以预测。
机器学习的模型相对简单，更容易掌握

机器学习的 7 大步

1. 收集数据

这一步我们把各种数据局采集上来如要预测一个动物是猫还是狗：

种类	体长	体重
猫	100	30
狗	500	60

2. 准备数据

收集上来的数据有时候不能正常使用需要对数据进行加工处理

数据的处理常见的方法

1. 缺失值处理

填充缺失值（均值、中位数、模型预测…）
删除带有缺失值的行
直接忽略，将缺失值作为特征的一部分喂给模型进行学习

2. 二值化

如要要查找大众最喜欢听的歌曲不能简单的以播放量作为定义，可能某个人一直在循环某首歌导致播放量很高，这种即使用户听了 N 遍，也只计数为 1

3. 分桶/分箱

如统计收入情况分布异常不均，有些人月入 1000 有些人月入几千万跨越了好几个数量级这样的数据对模型很不友好，可以划分为不同的区间例如：（1000-2000 3000 - 5000 5000 以上）

4. 缩放

某些算法对数值的大小比较敏感，需要将不同数量级的数值进行归一化，让其处在一个静态的繁殖中（例如： 0 - 1）
- 常见的缩放算法：
1. min - max
$ x = \frac{x - x_{ming}}{x_{max} - x\_{min}} $
1. 均值归一化（μ 代表平均值）
$ x = \frac{x - μ} {x_{max} - x_{min}}$
1. z-score 标准化（μ 代表平均值，∂ 为标准差）
$x = \frac{x - \mu}{\sigma}$

3. 选择一个合适的模型

简答说就是选择一个合适的算法

4. 训练

训练质量的好坏取决于前期准备数据的质量模型的选择

5. 评估

在完成训练之后需要用我们的测试数据集去验证我们目前这个模型的好坏常见的评估指标：准确率召回率 F 值

6. 调整参数

在评估过后调整参数继续训练直到整个模型满足我们的要求为止

7. 预测

完成评估后可以投入使用拿一个真实的数据进行预测然后看结果

机器学习的经典算法

不同算法解决不同机器学习的问题。

算法	训练方式
线性回归	监督学习
逻辑回归	监督学习
线性判别分析	监督学习
决策树	监督学习
朴素贝叶斯	监督学习
K 邻近	监督学习
学习向量量化	监督学习
支持向量机	监督学习
随机森林	监督学习
AdaBoost	监督学习
高斯混合模型	非监督学习
限制波尔兹曼机	非监督学习
K-means 聚类	非监督学习
最大期望算法	非监督学习

本文由mdnice多平台发布

机器学习

title: 机器学习要领

机器学习要领

机器学习的 7 大步

1. 收集数据

2. 准备数据

数据的处理常见的方法

1. 缺失值处理

2. 二值化

3. 分桶/分箱

4. 缩放

3. 选择一个合适的模型

4. 训练

5. 评估

6. 调整参数

7. 预测

机器学习的经典算法

不以己悲

引用和评论

再见 XShell！一款万能通用的终端工具，用完爱不释手！

70k star，取代Postman！这款轻量级API工具，太香了！

大模型时代，后端程序员如何避免被AI卷死？

C++ 中 VS 项目引入公共配置文件

LSM-TREE从入门到入魔：从零开始实现一个高性能键值存储｜得物技术

疯狂推荐！从零开始 Dify 部署全攻略！

Cherry Studio 入门 MCP：为你的大模型插上翅膀

机器学习

title: 机器学习要领

机器学习要领

机器学习的 7 大步

1. 收集数据

2. 准备数据

数据的处理常见的方法

1. 缺失值处理

2. 二值化

3. 分桶/分箱

4. 缩放

3. 选择一个合适的模型

4. 训练

5. 评估

6. 调整参数

7. 预测

机器学习的经典算法

不以己悲

引用和评论

再见 XShell！一款万能通用的终端工具，用完爱不释手！

70k star，取代Postman！这款轻量级API工具，太香了！

大模型时代，后端程序员如何避免被AI卷死？

C++ 中 VS 项目引入公共配置文件

LSM-TREE从入门到入魔：从零开始实现一个高性能键值存储 ｜ 得物技术

疯狂推荐！从零开始 Dify 部署全攻略！

Cherry Studio 入门 MCP：为你的大模型插上翅膀

LSM-TREE从入门到入魔：从零开始实现一个高性能键值存储｜得物技术