svm总结
拉格朗日对偶性
首先引进拉格朗日函数:
其中,$\alpha_i$>=0
原始问题
定义拉格朗日极小极大问题为:
定义原始问题的最优值:
对偶问题
定义拉格朗日极大极小问题为:
定义对偶问题的最优值:
原始问题和对偶问题的关系
很显然:
KTT条件
硬间隔最大化
假设最终分离超平面表达式为:
则任意一点到该超平面的函数间隔为:
SVM的基本思维就是使任意一点到超平面的最小距离最大,但是函数距离不行,需要使用几何距离:
现在可以得到优化表达式:
试想,其实$\gamma$无论是多少对最终值都没有任何影响,毕竟$w$和$b$是可以等比例变化的,现在我们假设$\gamma$=$\frac{1}{||w||}$得到:
为了向拉格朗日函数靠拢,改写为:
拉格朗日函数:
SVM原始问题:
对偶问题:
现在要求对偶问题的解:
先求$\min_{w,b}L(w,b,\alpha)$,由拉格朗日多元函数条件极值可知,极值必然在各个变量导数为0的位置:
得到:
从$w$的公式可知模型参数$w$可以完全用训练数据和$\alpha$计算得出。模型在优化的过程中保存的是参数$\alpha$,优化完$\alpha$后可以直接算出$w$.
将$w$的公式带回$L(w,b,\alpha)$,则现在:
现在自然要求的是极大化上诉公式,即$\max{\alpha}\min{w,b}L(w,b,\alpha)$:
剩下的就是SMO算法了,不在这里详解.
软间隔最大化
对每个点到分离超平面的距离不在硬性要求大于1,而是引入一个松弛变量。
计算过程不在详细说明,跟上面差不多,就是多了一个优化参数。
参数说明:$C$越大表示对误分类的惩罚越大,即允许分错的样本越少
合页损失函数
下面证明合页损失函数和软间隔最大化优化公式等价.
令:
必然有$\xi_i$>=0,可以看出,当$1-y_i(wx_i+b)>0$时,$y_i(wx_i+b)=1-\xi_i$,当$1-y_i(wx_i+b)<=0$时,$\xi_i=0$,故$y_i(wx_i+b)>=1-\xi_i$恒成立。故合页损失函数实际上可以写作:
取$\lambda=\frac{1}{2C}$得:
故合页损失函数和软间隔最大化其实等价.
核函数
核函数是解决非线性支持向量机的方式,在得软间隔的对偶问题:
之后更改为:
其中$K(x_i,x_j)$就是核函数,用来处理不可分问题,将数据映射到高维.这样最终的分离超平面为: