title: 机器学习要领

机器学习要领

机器学习就是让计算机摸清中间的套路然后从中找到规律,在深度学习的今天机器学习依然能够有较大的热度,有以下原因:

  1. 机器学习比较直观,其结果人类可以预测。
  2. 机器学习的模型相对简单,更容易掌握

机器学习的 7 大步

1. 收集数据

这一步我们把各种数据局采集上来如要预测一个动物是猫还是狗:

种类体长体重
10030
50060
2. 准备数据

收集上来的数据有时候不能正常使用 需要对数据进行加工处理

数据的处理常见的方法
1. 缺失值处理
  1. 填充缺失值(均值、中位数、模型预测…)
  2. 删除带有缺失值的行
  3. 直接忽略,将缺失值作为特征的一部分喂给模型进行学习
2. 二值化
  1. 如要要查找大众最喜欢听的歌曲 不能简单的以播放量作为定义,可能某个人一直在循环某首歌导致播放量很高,这种即使用户听了 N 遍,也只计数为 1
3. 分桶/分箱
  1. 如统计收入情况 分布异常不均,有些人月入 1000 有些人 月入几千万 跨越了好几个数量级 这样的数据对模型很不友好,可以划分为不同的区间 例如:(1000-2000 3000 - 5000 5000 以上)
4. 缩放
  1. 某些算法对数值的大小比较敏感,需要将不同数量级的数值进行归一化,让其处在一个静态的繁殖中(例如: 0 - 1)

    • 常见的缩放算法:
    1. min - max
    $ x = \frac{x - x_{ming}}{x_{max} - x\_{min}} $
    1. 均值归一化 (μ 代表平均值)
    $ x = \frac{x - μ} {x_{max} - x_{min}}$
    1. z-score 标准化 (μ 代表平均值,∂ 为标准差)
    $x = \frac{x - \mu}{\sigma}$
3. 选择一个合适的模型

简答说就是选择一个合适的算法

4. 训练

训练质量的好坏取决于前期准备数据的质量 模型的选择

5. 评估

在完成训练之后 需要用我们的测试数据集去验证我们目前这个模型的好坏 常见的评估指标:准确率 召回率 F 值

6. 调整参数

在评估过后 调整参数继续训练 直到整个模型满足我们的要求为止

7. 预测

完成评估后 可以投入使用 拿一个真实的数据进行预测然后看结果

机器学习的经典算法

不同算法解决不同机器学习的问题。

算法训练方式
线性回归监督学习
逻辑回归监督学习
线性判别分析监督学习
决策树监督学习
朴素贝叶斯监督学习
K 邻近监督学习
学习向量量化监督学习
支持向量机监督学习
随机森林监督学习
AdaBoost监督学习
高斯混合模型非监督学习
限制波尔兹曼机非监督学习
K-means 聚类非监督学习
最大期望算法非监督学习

本文由mdnice多平台发布


不以己悲
1 声望0 粉丝

« 上一篇
向量和矩阵