机器学习-泛化能力

在机器学习方法中，泛化能力通俗来讲就是指学习到的模型对未知数据的预测能力。在实际情况中，我们通常通过测试误差来评价学习方法的泛化能力。如果在不考虑数据量不足的情况下出现模型的泛化能力差，那么其原因基本为对损失函数的优化没有达到全局最优。

根据PAC理论，泛化误差可以直观理解为以e指数的形式正比于假设空间的复杂度，反比于数据量的个数。
就是数据量越多，模型效果越好，模型假设空间复杂度越简单，模型效果越好。

提高泛化能力的方式大致有三种：1.增加数据量。2.正则化。3.凸优化。

L1正则化的几何解释如图：

L1正则化给出的最优解w∗是使解更加靠近某些轴，而其它的轴则为0，所以L1正则化能使得到的参数稀疏化。
L1正则化的参数先验是服从拉布拉斯分布的，拉布拉斯的概率密度分布函数为：

L2正则化的解释如图：

L2 正则化给出的最优解w∗是使解更加靠近原点，也就是说L2正则化能降低参数范数的总和。
L2正则化的参数先验服从高斯分布，高斯分布的概率密度分布函数为：