温故而知新啊,今天复习线性回归和逻辑回归,发现了以前没想过的东西,即为什么逻辑回归要用交叉熵函数。

简单对比

  1. 最终函数
    线性回归:逻辑回归:令:
  2. 损失函数
    线性回归(注意谁减谁):逻辑回归(注意谁前谁后):
  3. 梯度计算:
    线性回归:逻辑回归:至此发现线性回归和逻辑回归的参数偏导公式完全相同,然后梯度上升或下降即可(上升还是下降取决于线性回归谁减谁,逻辑回归交叉熵谁先谁后)。

交叉熵含义

对于

要想让得到回归函数$f(x)$最符合要求,只需使后验概率概率最大即可:

其中,$y_i$是标签为1的数据,这其实是个似然函数,然后取$\log$:

发现$L(w,b)=\sum_{i=1}^NC(f(x_i),y_i)$,因此,交叉熵的含义其实就是后验概率最大化