机器学习-白板推导8 指数簇分布

1. 指数簇分布背景

指数簇分布(Exponential Family Distribution)需要满足以下形式:

其中:

  • : 自然参数(natural parameter,也叫正则参数 canonical parameter)

  • : 充分统计量(sufficient statistic),常使用的有,一般是一个对样本的统计函数表示。

  • 接下来会重点介绍的 是一个对数配分函数(log partition function)

    ​ 如这里的z就是归一化因子,又叫配分函数。

    ​ 对两边同时取积分:

    ​ 那么为什么叫log配分函数呢?

    又因为

    所以因此称为配分函数 ,称为对数配分函数。

    本质上扮演了归一化常数(normalization constant)的角色,也就是确保 $p(x| \eta)$ 的和或者积分等于$1$。

如果给定那么就定义了被参数$\eta$控制的一个分布簇(或者集)。改变$\eta$,我们能得到这簇中的不同分布。

指数簇分布有:

  • Gaussian 分布
  • 伯努利分布
  • 二项分布
  • 泊松分布
  • Beta分布
  • Dirichlet分布
  • Gamma分布

指数簇分布有如下性质和应用:

image-20210602212723792

性质

  1. 充分统计量

    举例来说就是,对于一些从高斯分布中抽取出来的样本,设其充分统计量为,

​ 那么我们就可以通过这个充分统计量来计算出均值和方差,从而明确其分布。这时就可以将样本丢掉,来节省空间,对online learning有重要作用。

  1. 共轭:因为贝叶斯公式中分母如下:

    计算积分复杂或者得到的形式复杂太难计算,因此求也是很困难的,所以人们想了很多办法,如近似推断(变分推断,MCMC等)都是因为上述计算难。

    共轭的概念是指给定一个特殊的似然函数的情况下,后验与先验会有一个形式相同的分布,这就解决了上述积分困难的问题,避免求分母的积分项,在后验概率正比于似然 × 先验概率概念下有如

  2. 最大熵

    ​ 最大熵原理:

    当给定一个限制条件的情况下,对于未知部分,我们假设它们等可能发生,但我们无法定量分析。而熵可以进行定量分析,我们去求解最大熵,熵越大则随机性越强。

    无信息先验:

    在贝叶斯估计中,我们往往需要给先验一个参数,有如下方法:

    ①共轭:为了计算方便

    ②利用最大熵思想:从最大熵的角度给予先验的参数(无信息先验)

    ③Jeffreys’s prior

2. 高斯分布指数簇形式

将高斯分布转换成式1指数簇这种形式:

MommyTalk1622785415491

由式2中我们可以得到两个式子:

现在也要用来表示,由式3可得:

式4代入到有:

现在就得到了高斯分布的指数簇形式:

更进一步来理解指数簇表示就是:的指数形式的表示,其中前半部分是一个参数和对于该分布的充分统计量,后半部分就是再减去一个对数配分函数,并且在1小节中,我们知道如果将其转换到指数外面就是除以一个配分函数,实际上,后半部分本质上是一个归一化因子。

3. 对数配分函数与充分统计量的关系

按照式1中指数簇分布表示有:

对式7两边变量求导得:

那么就得到了对数配分函数和充分统计量的关系:

继续对式9中的求导得:

由于方差不为负,所以是凸函数。


使用第2小节高斯分布来验证:

直接可证明:

因为,关于方差期望公式

而我们对求导可得:

这就验证了式8和式10,我们可以看到对数配分函数的一阶导就是充分统计量量中的期望,二阶导就是方差。


4. 极大似然估计与充分统计量

若我们有数据集如下:

那么我们可以用极大似然估计来估计:

对式11最后一步求导得:

那么就可以通过求反函数来实现。这也说明就是充分统计量,我们得到 就可以求出,进一步就得到所有的需要统计参数。

5. 最大熵

在信息论中,信息量就是概率的导数取对数,即。熵就是对信息量的期望,因此,

我们先看看离散变量的最大熵

对于离散变量要求其熵最大,即:

用拉格朗日乘执法求解:

求导得:

那么. 其总和概率为1,因此离散概率分布是均匀分布且.

从上述推导中看出,在离散随机变量中,均匀分布熵最大。即正在没有任何已知约束的情况下,均匀分布会使得熵最大。

最大熵原理

上面是没有任何已知信息情况下最大熵的推导,结果是要满足均匀分布。若我们已知数据集呢?比如数据集D:

然后根据数据我们可以得到其经验分布:

接下来我们就可以得到其期望, 方差, ….。把情况一般化,变量推广到函数向量,如:

其中,是假定的已知量。

现在,我们就可以在满足上述条件下,求其最大熵,这个优化问题如下:

用拉格朗日乘子法:

对每个求导, 并且,那么:

注:在求导时,只是对单独的求导,遇到时,结果为0, 可忽略。

式19中,我们看到最大熵要求分布满足指数簇分布,在满足既定数据的情况下,最大熵对应着要求满足指数簇分布

Inference

[1] 最大熵模型理论及NLP应用总结

[2] “共轭分布”是什么?