title: 机器学习要领
机器学习要领
机器学习就是让计算机摸清中间的套路然后从中找到规律,在深度学习的今天机器学习依然能够有较大的热度,有以下原因:
- 机器学习比较直观,其结果人类可以预测。
- 机器学习的模型相对简单,更容易掌握
机器学习的 7 大步
1. 收集数据
这一步我们把各种数据局采集上来如要预测一个动物是猫还是狗:
种类 | 体长 | 体重 |
---|---|---|
猫 | 100 | 30 |
狗 | 500 | 60 |
2. 准备数据
收集上来的数据有时候不能正常使用 需要对数据进行加工处理
数据的处理常见的方法
1. 缺失值处理
- 填充缺失值(均值、中位数、模型预测…)
- 删除带有缺失值的行
- 直接忽略,将缺失值作为特征的一部分喂给模型进行学习
2. 二值化
- 如要要查找大众最喜欢听的歌曲 不能简单的以播放量作为定义,可能某个人一直在循环某首歌导致播放量很高,这种即使用户听了 N 遍,也只计数为 1
3. 分桶/分箱
- 如统计收入情况 分布异常不均,有些人月入 1000 有些人 月入几千万 跨越了好几个数量级 这样的数据对模型很不友好,可以划分为不同的区间 例如:(1000-2000 3000 - 5000 5000 以上)
4. 缩放
某些算法对数值的大小比较敏感,需要将不同数量级的数值进行归一化,让其处在一个静态的繁殖中(例如: 0 - 1)
- 常见的缩放算法:
- min - max
$ x = \frac{x - x_{ming}}{x_{max} - x\_{min}} $
- 均值归一化 (μ 代表平均值)
$ x = \frac{x - μ} {x_{max} - x_{min}}$
- z-score 标准化 (μ 代表平均值,∂ 为标准差)
$x = \frac{x - \mu}{\sigma}$
3. 选择一个合适的模型
简答说就是选择一个合适的算法
4. 训练
训练质量的好坏取决于前期准备数据的质量 模型的选择
5. 评估
在完成训练之后 需要用我们的测试数据集去验证我们目前这个模型的好坏 常见的评估指标:准确率 召回率 F 值
6. 调整参数
在评估过后 调整参数继续训练 直到整个模型满足我们的要求为止
7. 预测
完成评估后 可以投入使用 拿一个真实的数据进行预测然后看结果
机器学习的经典算法
不同算法解决不同机器学习的问题。
算法 | 训练方式 |
---|---|
线性回归 | 监督学习 |
逻辑回归 | 监督学习 |
线性判别分析 | 监督学习 |
决策树 | 监督学习 |
朴素贝叶斯 | 监督学习 |
K 邻近 | 监督学习 |
学习向量量化 | 监督学习 |
支持向量机 | 监督学习 |
随机森林 | 监督学习 |
AdaBoost | 监督学习 |
高斯混合模型 | 非监督学习 |
限制波尔兹曼机 | 非监督学习 |
K-means 聚类 | 非监督学习 |
最大期望算法 | 非监督学习 |
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。