statistical machine learning 02 Perceptron

《统计学习方法》笔记—感知机

写在前面

豆瓣链接 : 《统计学习方法》
李航微博 : @李航博士
维基百科 : perceptron

Content List

statistical machine-learning
- 1.1. learning object data
- 1.2. main machine-learning

1. 感知机模型

模型适用前提

感知机能够解决的问题首先要求 feature_space 线性可分，再者是二类分类，即将样本分为 {+1, -1} 两类

由input_space to output_space 的函数： Perceptron_Function

w 和 b 为 model 参数，w为权值（weight），b为偏置（bias）

感知机模型的 hypothesis_space 是定义在feature_space中的所有线性分类模型，即函数集合 $$ {f|f(x) = w·x + b} $$

感知机的定义中，线性方程 $w·x + b = 0$ 对应于问题空间中的一个超平面S，位于这个超平面两侧的样本分别被归为两类，例如下图，红色作为一类，蓝色作为另一类，它们的特征很简单，就是它们的坐标

作为监督学习的一种方法，感知机学习由训练集求得感知机模型，即求得模型参数w，b，这里x和y分别是特征向量和类别（也称为目标）。基于此，感知机模型可以对新的输入样本进行分类。

2. 感知机学习策略

感知机是一个简单的二类分类的线性分类模型，要求我们的样本是线性可分的，什么样的样本是线性可分的呢？举例来说，在二维平面中，可以用一条直线将+1类和-1类完美分开，那么这个样本空间就是线性可分的。如图1就是线性可分的，图2中的样本就是线性不可分的，感知机就不能处理这种情况。因此，在本章中的所有问题都基于一个前提，就是问题空间线性可分。

为说明问题，假设数据集 $$
T = { (x_1, y_1), (x_2, y_2), ... , (x_N, y_N) }
$$ 中所有 $y_i = +1$ 的实例 i 有 per03 , 对所有 $y_i = -1$ 的实例 i 有 per04

这里先给出 input_space $R^n$ 中任一点 $x_0$ 到超平面 $S$ 的距离：

$$
frac{1}{||w||} |w bullet x_0 + b|
$$

这里 $||w||$ 是 $w$ 的 $L_2$ 范数。

对于误分类的数据 $(x_i, y_i)$ ，根据我们之前的假设，有

$$
-y_i (w bullet x_i + b) > 0
$$

因此误分类点到超平面S的距离可以写作 :

$$
-frac{1}{||w||} y_i (w bullet x_i + b)
$$

假设超平面S的误分类点集合为M，那么所有误分类点到超平面S的总距离为 :

$$
-frac{1}{||w||}sum_{x_i in M } y_i (w bullet x_i + b)
$$

statistical machine learning 02 Perceptron

《统计学习方法》笔记—感知机

1. 感知机模型

2. 感知机学习策略

3. 感知机学习算法

3.1 原始形式

3.2 算法收敛性

3.3 对偶形式

4. 小结

blair

引用和评论

EF level 02