SVM算法

1.基本概念
支持向量机(Support Vector Machine,SVM)是一种用于分类和回归分析的机器学习算法。

  • 支持向量:位于分离超平面两侧,距离超平面最近的输入样本。
  • 分离超平面:将不同类别的样本分开的直线(二分类)或平面(多分类)。
  • 间隔:最近的 support vector 到分离超平面的距离。
  • 核函数:用于将输入空间映射到更高维的特征空间,以便能够找到一个线性可分的超平面。

2.算法目标

  • 在二分类问题中,寻找一个分离超平面,使得不同类别的样本间隔最大化。
  • 在多分类问题中,通过一对一(one-vs-one)或一对多(one-vs-rest)方法,将多类问题转化为多个二分类问题。

3关键步骤
(1)选择核函数:根据数据特性选择合适的核函数(如线性核、多项式核、径向基函数(RBF)核等)。
(2)特征映射:使用选定的核函数将输入特征映射到高维特征空间。
(3)构建目标函数:定义一个目标函数(如 hinge 损失函数),用于衡量误判的程度。
(4)优化问题:通过解决一个凸二次规划问题来找到最优的分离超平面。
(5)决策函数:根据支持向量和分离超平面计算决策函数的值,以预测新样本的类别。
4.正则化参数

  • C 是一个正则化参数,用于平衡模型的复杂度和训练误差。C 值较大时,模型对训练数据的分类误差较小,但容易过拟合;C 值较小时,模型对训练数据的分类误差较大,但泛化能力较好。

5.应用场景
SVM 算法广泛应用于模式识别、图像分类、文本分类、生物信息学等领域。
6.优点:

  • 适用于小样本学习问题。
  • 具有良好的泛化能力。
  • 可以通过核技巧处理非线性问题。

7.缺点:

  • 计算复杂度高,特别是对于大规模数据集。
  • 需要调整多个参数(如核函数类型、C 值等)。
  • 解释性相对较差,通常被视为一个“黑箱”模型。

XY
4 声望1 粉丝

« 上一篇
EM算法