机器学习之分类结果的评价

2018-12-13
阅读 6 分钟
6.6k
以逻辑回归为例,介绍分类结果的评价方式。 精准率和召回率 对于极度偏斜的数据,使用分类准确度来评判模型的好坏是不恰当的,精确度和召回率是两个更好的指标来帮助我们判定模型的好快。 二分类的混淆矩阵 精准率和召回率是存在于混淆矩阵之上的,以二分类为例,分类0是偏斜数据中占优势的一方,将关注的重点放在分类为...

机器学习之逻辑回归

2018-12-08
阅读 6 分钟
5.8k
在最简单的二分类中,逻辑回归里样本发生的概率的值域为 [0, 1],对于线性回归 $\hat{y} = \theta^T·x_b$,为了将 $\hat y$ 映射到值域 [0, 1] 中,引入了 $\sigma$ 函数得到了概率函数 $\hat p$,即:

机器学习之多项式回归与模型泛化

2018-11-30
阅读 9 分钟
10.7k
假设曲线表达式为:$y=ax^2+bx+c$,如果将 $x^2$ 看作为 $x_1$,即 $y_1=ax_1+bx+c$,此时就有了两个特征,则可以看作是线性曲线表达式。

机器学习之PCA与梯度上升法

2018-11-25
阅读 8 分钟
3.3k
主成分分析(Principle Component Analysis,简称:PCA)是一种非监督学习的机器算法,主要用于数据的降维。 PCA 基本原理 以有2个特征的二维平面举例,如图: 横轴表示特征1,纵轴表示特征2,其中4个点表示二维的特征样本。如果要对样本进行降维降到一维,可以将这些点映射到横轴、纵轴或者其它轴上如: 映射到不同的轴...

机器学习之梯度下降法与线性回归

2018-11-17
阅读 9 分钟
8.4k
借助于损失函数 $J$ 在 $\theta$ 处的切线,可以直观的反映出损失函数 $J$ 在 $\theta$ 处的导数大小;导数的大小代表着 $\theta$ 变化时 $J$ 相应的变化。

机器学习之线性回归法

2018-11-02
阅读 6 分钟
4.4k
在统计学中,线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析维基百科。

机器学习之数据归一化

2018-10-27
阅读 3 分钟
7.6k
以 k-近邻算法为例,“发现时间”的数值比“肿瘤大小”的数值大很多,样本间的距离被“发现时间”主导,训练出来的模型主要由“发现时间”影响,甚至“肿瘤大小”的影响可忽略不计。

机器学习之 K-近邻算法

2018-10-26
阅读 6 分钟
5.7k
对于一个存在标签的训练样本集,输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,根据算法选择样本数据集中前k个最相似的数据,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。