Lipschitz约束

$\qquad$如果对于函数$f_w(x)$的定义域内任意输入$(x_1,f_w(x_1)),(x_2,f_w(x_2))$都满足存在一个常数$L_w$使得:

$\qquad$则称$f_w(x)$满足利普希茨连续条件,其中,最小的$L_w$叫做Lipschitz常数。可以看到,Lipschitz连续条件约束的是函数的范数,当$f_w(x)$是实值函数时,该范数即是绝对值,该公示可以简单理解为,一个函数的一阶导数有界。

模型鲁棒性

$\qquad$做算法的会经常看到鲁棒性这个词,用来描述算法的抗干扰能力,这个性质就是说一个模型,对于两个很接近的输入,其输出也必须很接近,就说其鲁棒性强,用数学语言描述:

Lipschitz与激活函数

$\qquad$大家知道,我们常用的激活函数有这些$sigmoid$、$relu$,$tanh$,如果问为什么需要激活函数,回到应该是非线性化,那如果问为什么常用的激活函数是这三个呢?$x^3$行不行?
$\qquad$ 答案是不行,从Lipschitz的角度分析,这三个激活函数不仅仅是能够做到非线性化,而且其一阶导函数是有界的,如果使用$x^3$,当输入一个很大的数据$x$ 时,其一阶导函数必然非常大,则$f_w(x+\Delta x)-f_w(x)$也必然很大,则在模型看来,两个很接近的数据其输出却差这么多,这样学下去模型很容易废掉。
$\qquad$ 而这三个激活函数不仅保证一阶函数有界,而且在最大导数点在原点,还能更方便的和Normalization结合。