beta分布的分布函数 如何理解Beta分布和Dirichlet分布?

2019-02-13 - beta分布

1. 如果给你一个硬币,投这个硬币有\theta的概率抛出Head,有(1-\theta)的概率抛出Tail。如果在未来抛了五次这个硬币,有三次是Head,有两次是Tail,这个\theta最有可能是多少呢?如果你必须给出一个确定的值,并且你完全根据目前观测的结果来估计\theta,那么\theta = 3/5。

beta分布的分布函数

2. 如果未来抛出五次硬币,全部都是Head。那么按照1中的逻辑,你将估计\theta为1。也就是说,你估计这枚硬币不管怎么投,都朝上!

3. 可是,你想这或许是巧合:世界上没有这么屌的硬币,硬币还是有一定可能抛出Tail的。就算观测到再多次的Head,抛出Tail的概率还是不可能为0。

beta分布的分布函数

4. 这时候,Bayesian公式横空出世(如下图所示)。我们在估计\theta时,心中先有一个估计,即先验概率。这个估计,表现在Probability中,就是一个概率分布。通俗得来讲,我们不再认为\theta是个固定的值了。

5. 在上面的Bayesian公式中,p(\theta)就是个概率分布。这个概率分布可以是任何概率分布,比如高斯分布,比如我们想要说的Beta Distribution。下图是Beta(5,2)的概率分布图。

beta分布的分布函数

如果我们将这个概率分布作为p(\theta),那么我们在还未抛硬币前,便认为\theta很可能接近于0.8,而不大可能是个很小的值或是一个很大的值。即,我们在抛硬币前,便估计这枚硬币更可能有0.8的概率抛出正面。

6. 虽然p(\theta)可以是任何种类的概率分布,但是如果使用Beta Distribution,会让之后的计算更加方便。我们接着继续看便知道这是为什么了。况且,通过调节Beta Distribution中的a和b,你可以让这个概率分布变成各种你想要的形状!Beta Distribution已经很足够表达你事先对\theta的估计了。

beta分布的分布函数

7. 现在我们已经估计好了p(\theta)为一个Beta Distribution,那么p(X

\theta)是多少呢?其实就是个二项分布。继续以1中抛5次硬币抛出3次Head为例,X=抛5次硬币抛出3个Head的事件。

8. Bayesian公式下的p(X)是个Normalizer,或者叫做marginal probability。在\theta离散的情况下,p(X)就是\theta为不同值的时候,p(X

\theta)的求和。比如,如果我们事先估计硬币抛出正面的概率只可能是0.5或者0.8,那么p(X) = p(X

\theta=0.5) p(X

\theta=0.8),计算时分别将\theta=0.5和\theta=0.8代入到7中的公式中。而如果我们用Beta Distribution,\theta的概率分布在[0,1]之间是连续的,所以要用积分。

9. p(\theta)是个Beta Distribution,那么在观测到X=抛5次硬币中有3个head的事件后,p(\theta

X)依旧是个Beta Distribution!只是这个概率分布的形状因为观测的事件而发生了变化。

10. 因为观测前后,对\theta估计的概率分布均为Beta Distribution,这就是为什么使用Beta Distribution方便我们计算的原因了。当我们得知p(\theta

X)=Beta(\theta

a 3, b 2)后,我们就只要根据Beta Distribution的特性,得出\theta最有可能等于多少了。(即\theta等于多少时,观测后得到的Beta distribution有最大的概率密度)。

例如下图,仔细观察新得到的Beta Distribution,和(5)中的概率分布对比,发现峰值从0.8左右的位置移向了0.7左右的位置。这是因为新观测到的数据中,5次有3次是head(60%),这让我们觉得,\theta没有0.

8那么高。但由于我们之前觉得\theta有0.8那么高,我们觉得抛出head的概率肯定又要比60%高一些!这就是Bayesian方法和普通的统计方法不同的地方。我们结合自己的先验概率和观测结果来给出预测。

11. 如果我们投的不是硬币,而是一个多面体(比如筛子),那么我们就要使用Dirichlet Distribution了。使用Dirichlet Distributio的目的,也是为了让观测后得到的posterior probability依旧是Dirichlet Distribution。

12. 比如,我们抛掷一个三面体。抛出这三个面的概率分别为\theta_1, \theta_2和\theta_3。不论\theta_1, \theta_2和\theta_3如何分布,它们相加必须等于1。

那它们的概率分布,是在一个立体的空间里的一个面。这个面由\theta_1 \theta_2 \theta_3=1表示。这个面上的任意一点,表示某种\theta_1, \theta_2和\theta_3组合的概率密度。下三图分别由不同的\alpha vector初始化得到不同的Dirichlet Distribution,红颜色代表概率密度较大,蓝颜色的区域概率密度较小。

13. Dirichlet Distribution和Beta Distribution都叫做Conjugate Prior。根据你的likelihood function,你可以选择对应的conjugate prior作为你对p(\theta)事先的估计。

相关阅读
  • 林依晨张彬彬 《小女花不弃》林依晨张彬彬开启欢喜冤家模式

    林依晨张彬彬 《小女花不弃》林依晨张彬彬开启欢喜冤家模式

    2019-07-23

    由查传谊导演执导,金媛媛编剧,梁振华、周美豫担任总监制,张庆紫、穆晓穗担任总制片人,林依晨、张彬彬领衔主演的古代晋升流励志轻喜剧《小女花不弃》将于今晚(1月8日)22:00正式登陆浙江卫视中国蓝周播剧场。首播当日再度释放重磅物料,全阵容海报与主题曲《桃花笑》MV同步上线,《小女花不弃》欢乐前奏已经敲响。

  • 上海第二医科大学 我国最好的20所医科大学排名 北协第一、首医第二!

    上海第二医科大学 我国最好的20所医科大学排名 北协第一、首医第二!

    2019-08-12

    目前,在高考志愿填报填报中,最热门的两类专业想必就是经管类专业和语言类专业了。为什么这么说呢?因为在每年高考录取分排名中,如经管类特色院校上海财经大学、中央财经大学、对外经济贸易大学的录取分数线接近华东五校,远高于其它一般985院校。而又如语言类特色院校北京外国语大学、北京语言学院、外交学院的录取分数线也是高的出奇。

  • beta分布怎么表示 如何通俗理解beta分布?

    beta分布怎么表示 如何通俗理解beta分布?

    2019-02-13

    相信大家学过统计学的都对正态分布二项分布均匀分布等等很熟悉了,但是却鲜少有人去介绍beta分布的。用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。举一个简单的例子,熟悉棒球运动的都知道有一个指标就是棒球击球率(battingaverage)。

  • 二项分布超几何分布 超几何分布与二项分布的联系与区别

    二项分布超几何分布 超几何分布与二项分布的联系与区别

    2019-02-13

    摘要:超几何分布和二项分布有着密切的联系,但也有明显的区别。本文对此进行了分析。关键词:超几何分布;二项分布;区别;联系作者简介:丁曼,任教于江苏省徐州高级中学。nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;在苏教版《数学选修23》的课本中,第二章《概率》的2。