svm总结

拉格朗日对偶性

首先引进拉格朗日函数:

其中,$\alpha_i$>=0

原始问题

定义拉格朗日极小极大问题为:

定义原始问题的最优值:

对偶问题

定义拉格朗日极大极小问题为:

定义对偶问题的最优值:

原始问题和对偶问题的关系

很显然:

KTT条件

硬间隔最大化

假设最终分离超平面表达式为:

则任意一点到该超平面的函数间隔为:

SVM的基本思维就是使任意一点到超平面的最小距离最大,但是函数距离不行,需要使用几何距离:

现在可以得到优化表达式:

试想,其实$\gamma$无论是多少对最终值都没有任何影响,毕竟$w$和$b$是可以等比例变化的,现在我们假设$\gamma$=$\frac{1}{||w||}$得到:

为了向拉格朗日函数靠拢,改写为:

拉格朗日函数:

SVM原始问题:

对偶问题:

现在要求对偶问题的解:
先求$\min_{w,b}L(w,b,\alpha)$,由拉格朗日多元函数条件极值可知,极值必然在各个变量导数为0的位置:

得到:

从$w$的公式可知模型参数$w$可以完全用训练数据和$\alpha$计算得出。模型在优化的过程中保存的是参数$\alpha$,优化完$\alpha$后可以直接算出$w$.
将$w$的公式带回$L(w,b,\alpha)$,则现在:

现在自然要求的是极大化上诉公式,即$\max{\alpha}\min{w,b}L(w,b,\alpha)$:

剩下的就是SMO算法了,不在这里详解.

软间隔最大化

对每个点到分离超平面的距离不在硬性要求大于1,而是引入一个松弛变量。

计算过程不在详细说明,跟上面差不多,就是多了一个优化参数。
参数说明:$C$越大表示对误分类的惩罚越大,即允许分错的样本越少

合页损失函数

下面证明合页损失函数和软间隔最大化优化公式等价.
令:

必然有$\xi_i$>=0,可以看出,当$1-y_i(wx_i+b)>0$时,$y_i(wx_i+b)=1-\xi_i$,当$1-y_i(wx_i+b)<=0$时,$\xi_i=0$,故$y_i(wx_i+b)>=1-\xi_i$恒成立。故合页损失函数实际上可以写作:

取$\lambda=\frac{1}{2C}$得:

故合页损失函数和软间隔最大化其实等价.

核函数

核函数是解决非线性支持向量机的方式,在得软间隔的对偶问题:

之后更改为:

其中$K(x_i,x_j)$就是核函数,用来处理不可分问题,将数据映射到高维.这样最终的分离超平面为: