《PRML》学习笔记2.2——多项式分布和狄利克雷分布

《PRML》学习笔记2.2——多项式分布和狄利克雷分布  上回讲完了伯努利分布、二项分布和Beta分布,以及从最大似然估计的非参数化思想和引入共轭先验,使得参数变成一个变量,建模求解的参数化方法两方面介绍了求解模型参数的方法。没有读过的朋友可以参考:《PRML》学习笔记2.1——伯努利分布、二项分布和Beta分布,从贝叶斯观点出发  今天将为大家介绍两个更难理解的分布——多项式分布和狄利克雷分布。1.多项式变量和多项式分布  …

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

    上回讲完了伯努利分布、二项分布和Beta分布,以及从最大似然估计的非参数化思想和引入共轭先验,使得参数变成一个变量,建模求解的参数化方法两方面介绍了求解模型参数\mu的方法。没有读过的朋友可以参考:《PRML》学习笔记2.1——伯努利分布、二项分布和Beta分布,从贝叶斯观点出发

    今天将为大家介绍两个更难理解的分布——多项式分布和狄利克雷分布。

1.多项式变量和多项式分布

    伯努利分布的一个经典例子就是掷硬币,当你掷出去的时候,得到的结果只有正面朝上或者反面朝上两种可能,因此可以用p(x|\mu)=\mu^{x}\cdot(1-\mu)^{1-x}进行建模。概率密度的表达式中,x的取值只有两种情况——0或1,那么,这个建模方法就不适用于掷骰子了,毕竟骰子有6个面,对应着6种投掷结果。所以这时候就要将服从伯努利分布的变量进行扩展了。

    首先,使用一种方式来表达投掷骰子的结果,这里推荐的是”1-of-K”表示法,使用一个K维向量\boldsymbol{x}来表示状态,向量中一个元素x_k等于1,其余元素为0,用来表示发生的是第k中情况:

                                                                          \large \boldsymbol{x}=(0,0,0,1,0,0)^T                                                                                  (1)

    如果用参数\mu_k表示x_k=1的概率,那么\mathbf{x}的分布为:

                                                                          \large p(\boldsymbol{x}|\boldsymbol{\mu})=\prod_{k=1}^{K}\mu_k^{x_k}                                                                                        (2)

    因为\mu_k代表的是一种情况的概率,所以\mu_k满足\mu_k\ge0而且\sum_{k=1}^{K}\mu_k=1。可以看出,这是伯努利分布的一个多维上的推广,伯努利分布p(x|\mu)=\mu^{x}\cdot(1-\mu)^{1-x}也可以换成相同的形式表达:p(\boldsymbol{x}|\boldsymbol{\mu})=\mu_1^{x_1}\cdot\mu_2^{x_2}\boldsymbol{x}是一个2维向量,同样是用”1-of-K”表示法,这里的\mu_k也满足\mu_k\ge0\sum_{k=1}^{K}\mu_k=1

    继续K维向量的讨论,由刚才的分布推导出其数学期望为:

                                                      \large \mathbb{E}[\boldsymbol{x}|\boldsymbol{\mu}]=\sum_{\boldsymbol{x}}p(\boldsymbol{x}|\boldsymbol{\mu})\boldsymbol{x}=(\mu_1,...,\mu_K)^T=\boldsymbol{\mu}                                                       (3)

    那么,可以联系之前从伯努利分布到二项分布的引出过程,我们也制造一个集合\mathcal{D},它由N个独立同分布(如上面的分布)的向量\boldsymbol{x_1}...\boldsymbol{x_N},那么对应的似然函数是:

                                                    \large p(\mathcal{D}|\boldsymbol{\mu})=\prod_{n=1}^{N}\prod_{k=1}^{K}\mu_k^{x_{nk}}=\prod_{k=1}^{K}\prod_{n=1}^{N}\mu_k^{x_{nk}}=\prod_{k=1}^{K}\mu_k^{\sum_{n=1}^{N}x_{nk}}                                       (4)

    设 m_k=\sum_nx_{nk},那么这个部分代表了似然函数对于N个数据点的依赖关系,而m_k也可以理解为,在N次观测中,观测到x_k=1的次数。接下来求解最大似然解,转化成对数似然函数:

                                                                     \large \mathrm{ln}p(\mathcal{D}|\boldsymbol{\mu})=\sum_{k=1}^Km_k\cdot \mathrm{ln}(\mu_k)                                                                        (5)

    同时存在的限制条件为\sum_{k=1}^{K}\mu_k=1,这个限制通过拉格朗日乘数\large \lambda实现,总的函数变为:

                                          \large \mathrm{ln}p(\mathcal{D}|\boldsymbol{\mu})+\lambda(\sum_{k=1}^K\mu_k -1)=\sum_{k=1}^Km_k\cdot \mathrm{ln}(\mu_k)+\lambda(\sum_{k=1}^K\mu_k -1)                               (6)

    求导:

                                                            \large \frac{\partial f}{\partial \mu_k}=\frac{m_k}{\mu_k}+\lambda=0 \to \mu_k=-\frac{m_k}{\lambda}                                                                   (7)

    将\mu_k=-\frac{m_k}{\lambda}代入\sum_{k=1}^{K}\mu_k=1中,解得\lambda=-N,\mu_k^{ML}=\frac{m_k}{N},对应的就是在N次观测中,观测到x_k=1的次数的比例。然后,类似于二项分布,考虑m_1...m_k的联合分布(二项分布只考虑m_1的分布),可以得到:

                                                     \large p(m_1,m_2...m_k|\boldsymbol{\mu},N)=(_{m_1,m_2...m_k}^{N})\prod_{k=1}^K\mu_k^{m_k}                                                          (8)

    此时满足\sum_{k=1}^{K}\mu_k=1

2.狄利克雷分布

    由多项式分布的形式可知,参数\{\mu_k\}的共轭先验分布满足p(\boldsymbol{\mu}|\boldsymbol{\alpha})\propto\prod_{k=1}^K\mu_k^{\alpha_k-1},其中1\ge\mu_k\ge0\sum_{k=1}^{K}\mu_k=1,由于这两个条件的限制,参数\{\mu_k\}被限制在了k-1维的单纯性中(作为特例,Beta分布的参数分布在一条直线\mu_1+\mu_2=1上)。归一化后,得到了狄利克雷分布:

                                                                p(\boldsymbol{\mu}|\boldsymbol{\alpha})=\frac{\Gamma(\sum_{k=1}^K\alpha_k)}{\Gamma(\alpha_1)...\Gamma(\alpha_K)}\cdot \prod_{k=1}^K\mu_k^{\alpha_k-1}                                                                        (9)

    它是Beta分布的多维推广。同样,用贝叶斯公式可得,参数\{\mu_k\}的后验概率正比于似然函数和先验概率的乘积。因此形式一致,得到归一化后的后验概率分布也是狄利克雷分布,为:

                                                        p(\boldsymbol{\mu}|\boldsymbol{\alpha})=\frac{\Gamma(\sum_{k=1}^K\alpha_k+N)}{\Gamma(\alpha_1+m_1)...\Gamma(\alpha_K+m_K)}\cdot \prod_{k=1}^K\mu_k^{\alpha_k+m_k-1}                                                  (10)

    因此参数\alpha_k可以理解为x_k=1的有效观测数。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/182917.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Activiti工作流_activiti使用教程

    Activiti工作流_activiti使用教程Activiti项目是一项新的基于Apache许可的开源BPM平台,从基础开始构建,旨在提供支持新的BPMN2.0标准,包括支持对象管理组(OMG),面对新技术的机遇,诸如互操作性和云架构,提供技术实现。 <!–添加Activiti工作流的支持一般需要exclusions–> <dependency> <groupId…

    2022年10月5日
    0
  • C#的Button.DialogResult属性[通俗易懂]

    C#的Button.DialogResult属性[通俗易懂]如果此属性的DialogResult不是设置为None,并且父窗体是通过ShowDialog方法显示的,则不必挂钩任何事件,单击按钮也可关闭父窗体。然后,该窗体的DialogResult属性将设置为该按钮被单击时的DialogResult。例如,若要创建一个“是/否/取消”对话框,只需添加三个按钮并将其DialogResult属性分别设置为Yes、No和Cancel即可。…

    2022年6月22日
    21
  • 计算距离矩阵的方法_距离矩阵计算

    计算距离矩阵的方法_距离矩阵计算给定一个 N 行 M 列的 01 矩阵 A,A[i][j] 与 A[k][l] 之间的曼哈顿距离定义为:dist(A[i][j],A[k][l])=|i−k|+|j−l|输出一个 N 行 M 列的整数矩阵 B,其中:B[i][j]=min1≤x≤N,1≤y≤M,A[x][y]=1dist(A[i][j],A[x][y])输入格式第一行两个整数 N,M。接下来一个 N 行 M 列的 01 矩阵,数字之间没有空格。输出格式一个 N 行 M 列的矩阵 B,相邻两个整数之间用一个空格隔开。数据范围

    2022年8月9日
    6
  • 不止一个背包的背包问题_背包问题 java

    不止一个背包的背包问题_背包问题 java有 N 个物品和一个容量是 V 的背包。物品之间具有依赖关系,且依赖关系组成一棵树的形状。如果选择一个物品,则必须选择它的父节点。如下图所示:如果选择物品5,则必须选择物品1和2。这是因为2是5的父节点,1是2的父节点。每件物品的编号是 i,体积是 vi,价值是 wi,依赖的父节点编号是 pi。物品的下标范围是 1…N。求解将哪些物品装入背包,可使物品总体积不超过背包容量,且总价值最大。输出最大价值。输入格式第一行有两个整数 N,V,用空格隔开,分别表示物品个数和背包容量。接下来有 N

    2022年8月9日
    0
  • L3-023 计算图(链式求导+bfs拓扑|dfs)「建议收藏」

    L3-023 计算图(链式求导+bfs拓扑|dfs)「建议收藏」原题链接“计算图”(computational graph)是现代深度学习系统的基础执行引擎,提供了一种表示任意数学表达式的方法,例如用有向无环图表示的神经网络。 图中的节点表示基本操作或输入变量,边表示节点之间的中间值的依赖性。 例如,下图就是一个函数 ( 的计算图。现在给定一个计算图,请你根据所有输入变量计算函数值及其偏导数(即梯度)。 例如,给定输入,,上述计算图获得函数值 (;并且根据微分链式法则,上图得到的梯度 ∇。知道你已经把微积分忘了,所以这里只要求你处理几个简单的算子:加法、减法、乘

    2022年8月8日
    6
  • a标签去下划线或文字添加下修饰_a标签去掉下划线_百度经验「建议收藏」

    a标签去下划线或文字添加下修饰_a标签去掉下划线_百度经验「建议收藏」是默认有下划线的。所以有时候为了美观,我们需要去掉下划线,使网页更加美观正常状态下的a标签是这样的。去掉下划线只需要在样式里面加入a{text-decoration:none;}或者这里是A标签还有更加详细的设置。a:link{text-decoration:none;/*指正常的未被访问过的链接*/}a:visited{text-decoration:none;/*指已经访问过的链接*…

    2022年6月1日
    38

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号