虽然以前也了解最大熵模型,甚至以为自己完全理解了最大熵,知道今天才发现我以前都回了点啥。。。。今天发现自己顿悟了一下,特此记录,希望能给看到的人一点帮助,再次膜拜孔圣人的远见”温故而知新,可以为师矣.”(未完待续)

从最大熵思想开始

其实在我看来,所谓的最大熵思想就是对已知的条件充分考虑,对未知的条件不做任何假设,这就是最大熵的真谛.

这就是最大熵模型

5个海贼团$A、B、C、D、E$去争夺罗杰的宝藏,宝藏只有一份,问谁能得到?
我们给他建立的模型是均匀模型$P(X=A)=\frac{1}{6},P(X=B)=\frac{1}{6},P(X=C)=\frac{1}{6},P(X=D)=\frac{1}{6},P(X=E)=\frac{1}{6},P(X=6)=\frac{1}{6}$
我们为毛会建立这样的模型呢?因为均匀模型的熵最大,我们对这个5个海贼团一无所知,因此只能创建均匀模型来保证熵最大,这就是最大熵的一个最简单应用

5个海贼团$A、B、C、D、E$去争夺罗杰的宝藏,我们已知:$A$得到宝藏的概率和$B$一样,都是$\frac{1}{10}$,$C$和$D$一样,都是$\frac{3}{10}$,而$E$就比较牛逼了,他的概率是$\frac{5}{10},因为他叫路飞$,宝藏只有一份,问谁能得到?
现在我们有了条件,就不能简单的创建均匀模型了,因为此时我们要找的模型不是$P(X,\theta)$,而是$P(Y|X,\theta)$,我们需要的是$P(Y|X,\theta)$的熵最大,这便是最大熵模型

看看公式

已知:$T={(x_1,y_1),(x_2,y_2),…,(x_N,y_N) }$
目标:运用最大熵原理找最大熵模型
由上诉最大熵模型的由来我们很容易得出公式,不是要找一个模型,在$X$的条件下这个模型的$P(Y|X,\theta)$的熵最大么,很明显这是个条件熵呀,那么这个模型在这份数据上的条件熵的公式:

其中$\widetilde{P}(x)=\frac{N_x}{N}$
现在我们的目标确定了,我们要从很多的模型中找到一个模型,这个模型充分考虑了已知数据$T$,而且对未知不做任何假设不做任何假设解决了,我们让公式$(1)$要尽量大即可,那么充分考虑已知数据要怎样表示呢?说到这有人可能会有些思绪了,其实就是从$T$中找一个用来表示充分考虑已知条件的约束,让公式$(1)$在这个约数下尽量大.找到这个约束,一个最优化问题就出现了,现在我们的目的就是找这个约束。

充分考虑

现在我们想想,什么是充分考虑了已知数据呢?比如我们找到了一个模型$P(Y|X,\theta)$,要考量它是对已知数据的考虑程度,把这句话数学化就是考量这个模型对原始数据特征的考虑程度,怎样表示原始数据的特征呢?特征函数出现了!!!
我们一般用这样一个特征函数来描述特征:

那么这分数据特征的总值是多少呢?找期望呗

其中$\widetilde P(x,y)=\frac{N_{xy}}{N}$,谨记:$E_{\widetilde p}(f)$是原始数据的特征总值.
对于我们找的的模型$P(Y|X,\theta)$在这份数据的特征总值是多少呢?

要想让$P(Y|X,\theta)$充分考虑原始数据咋做呢?两个特征总值相等呗

这就是约束条件了.

最大熵模型

现在我们的目标确定了,我们要让公式$(1)$在约束条件为公式$(4)$的条件下越大越好,现在我们把公式$(1)$展开:

所以最终公式为:

其中i代表第i个特征函数
完毕散花!!!!卧槽写完后发现写的好清楚…不信你看了还不明白!

最大熵模型求解

1.首先引入拉格朗日乘子$w_0,w_1…$

原始问题是:

对偶问题是:

令:

首先求内部:

令偏导数为0,得:

因为有:

因此:

因此,最终求得:

注意看这里,这不就是Softmax么!!!!!!!!!!!!!!!!!!
最后一步在求
$\max_w$即可.

最大似然估计

最大似然估计的一般公式为:

我们求得的最大熵模型为:

我们要证明这两个式子求得得结果是相同的,即:

带入得:

得:

因此,当带入$P(y|x,\theta)$时,得到得公式是相同得,因此求得的$\max_w$也一定相同.

从最大熵模型到逻辑回归

二元逻辑回归的似然函数为:

在这里,其实$\pi(x_i)$就是$P(Y=1|X=x_i)$而且$y_i$完全可以写成数据中$Y=1$的数量你说对也不对。。其实在细想还可以写成数据中$X=x_i,Y=1$的数量.所以可以写成:

在开个N(N是数据总量)次方得:

想想$\frac{N_{0x_i}}{N}$是啥,,,这不就是$\widetilde{P}(x,y)$么,,,而且开个N次方对优化也没有影响,拿这个公式和$公式(3)$去掉log,即$P(y|x)^{\widetilde{p}(x,y)}$对比一下,这不一样么.哈哈哈,有没有恍然大明白的感觉。

再到最大似然估计

概率论与数理统计中的最大似然概率为公式为:

这里只是一元$x$,怎么对应到二元$(x,y)$呢?其实两者同理,需要正确的理解无论是几元,这里的$p(x_i;\theta)$的真正意义是变量特征函数的联合分布,对应到二元就是:

也就是说概率论与数理统计中的最大似然估计其实完全针对的是联合分布,特征和标签的地位完全一样,得到的似然函数公式其实是一个信息熵。但是我们的目的得到输入任何$x$后$y$的分布,是个边缘分布,则该边缘分布的熵就是个条件熵

我觉得这里贴一道考研题比较合适:
设总体$X$的概率分布为:

X 0 1 2 3
P $\theta^2$ $2\theta(1-\theta)$ $\theta^2$ $1-2\theta$

其中$\theta(0 \lt \theta \lt\frac{1}{2})$是待求参数,当前总体样本为:$3,1,3,0,1,2,3$,求$\theta$的最大似然估计。
第一步需要找到似然函数,$Ln(\theta)=ln{(1-2\theta)\times(2\theta(1-\theta)\times(1-2\theta) \times \theta^2 \times 2\theta(1-\theta) \times \theta^2 \times 1-2\theta}$,这其实就是公示(16),注意,此时是单变量,此时只有$X$,没有$Y$,即某个特征只对应一种label,公示(16)是普遍表示,即$P(y|x)=P(x),\widetilde P(x,y)=\widetilde P(x)$。