《统计学习方法》笔记—感知机
写在前面
豆瓣链接 : 《统计学习方法》
李航微博 : @李航博士
维基百科 : perceptron
Content List
-
statistical machine-learning
1.1. learning object data
1.2. main machine-learning
1. 感知机模型
模型适用前提
感知机 能够解决的问题首先要求 feature_space
线性可分,再者是二类分类,即将样本分为 {+1, -1} 两类
由input_space
to output_space
的函数:
w 和 b 为 model 参数,w为权值(weight),b为偏置(bias)
<p align="center"></p>
感知机模型的 hypothesis_space
是定义在feature_space
中的所有线性分类模型,即函数集合 $$ {f|f(x) = w·x + b} $$
感知机的定义中,线性方程 $w·x + b = 0$ 对应于问题空间中的一个超平面S,位于这个超平面两侧的样本分别被归为两类,例如下图,红色作为一类,蓝色作为另一类,它们的特征很简单,就是它们的坐标
<p align="center">
作为监督学习的一种方法,感知机学习由训练集求得感知机模型,即求得模型参数w,b,这里x和y分别是特征向量和类别(也称为目标)。基于此,感知机模型可以对新的输入样本进行分类。
2. 感知机学习策略
感知机是一个简单的二类分类的线性分类模型,要求我们的样本是线性可分的,什么样的样本是线性可分的呢?举例来说,在二维平面中,可以用一条直线将+1类和-1类完美分开,那么这个样本空间就是线性可分的。如图1就是线性可分的,图2中的样本就是线性不可分的,感知机就不能处理这种情况。因此,在本章中的所有问题都基于一个前提,就是问题空间线性可分。
<p align="center">
为说明问题,假设数据集 $$
T = { (x_1, y_1), (x_2, y_2), ... , (x_N, y_N) }
$$ 中 所有 $y_i = +1$ 的实例 i 有 , 对 所有 $y_i = -1$ 的实例 i 有
这里先给出 input_space
$R^n$ 中任一点 $x_0$ 到超平面 $S$ 的距离:
$$
frac{1}{||w||} |w bullet x_0 + b|
$$
这里 $||w||$ 是 $w$ 的 $L_2$ 范数。
对于误分类的数据 $(x_i, y_i)$ ,根据我们之前的假设,有
$$
-y_i (w bullet x_i + b) > 0
$$
因此误分类点到超平面S的距离可以写作 :
$$
-frac{1}{||w||} y_i (w bullet x_i + b)
$$
假设超平面S的误分类点集合为M,那么所有误分类点到超平面S的总距离为 :
$$
-frac{1}{||w||}sum_{x_i in M } y_i (w bullet x_i + b)
$$
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。