核函数
某种非线性变换 φ(x),将输入空间映射到高维特征空间。φ(x)一般是很难表示的,故我们只用到K。在低维空间存在 K(x, x′) ,它恰好等于在高维空间中这个内积。简化计算,如SVM(只用到内积),核Kmeans(把求欧式距离的平方公式分解,变成内积形式)。
常见核由高斯核,指数核,径向基核。
核函数是一种距离公式,它可以用来生成特征。核函数首先在samples上找1个landmark,然后计算其他所有数据同这个landmark的核函数距离,之后将这个距离作为一个特征使用。
概率和似然
已知参数对结果的预测是概率。
已知结果参数的取值概率是似然。
在已知某个参数a时,事件A会发生的条件概率可以写作P(A;a),也就是P(A|a)。我们也可以构造似然性的方法来表示事件A发生后估计参数a的可能性,也就表示为L(a|A) = P(A|a)。
似然函数乘以一个正常数还是似然海曙,不必满足归一化条件。
极大似然求解:连乘所有似然求最大值
逻辑回归
二分类,$y = \sigma (z) = \frac{1}{1+e^{-z}}$。
损失函数使用负的交叉熵,也就是似然函数(推导过程)。
如果用梯度上升求解就是极大似然。
如果梯度下降就是负似然,正常的二分类交叉熵。
- 使用极大似然或者交叉熵的原因:
1、极大似然。
2、为什么不用平方损失函数,收敛速度要更快,平方的梯度带sigmoid的导数(小于0.25(f*(1-f);非凸函数,局部最优解多。 - 与多层感知器的关系:
前者为sigmoid function,后者为step function。
一种是最大似然,贝叶斯思想。另一种是函数拟合。
解决非线性问题要加入核技巧。
SVM
目标是训练一个间隔最大化的分类器。间隔是指两类样本中离分类平面最近的点。
训练数据线性可分的时候,使用硬间隔最大化。
目标函数2/||W||^2 subject to 正类 W^T X + b >= 1
训练数据近似线性可分的时候,使用软间隔最大化。
目标函数2/||W||^2 + C∑$ subject to 正类 W^T X + b >= 1-$
训练数据不可分的时候,使用核技巧及软间隔最大化。
对偶:引入核技巧,内积。求解方便。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。