概率论机器学习的先验知识(上)

概率论机器学习的先验知识(上)

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

       随着Hadoop等大数据的出现和技术的发展,机器学习越来越多地进入人们的视线。

其实早Hadoop之前,机器学习和数据挖掘已经存在,作为一个单独的学科,为什么hadoop之后出现,机器学习是如此引人注目了?因是hadoop的出现使非常多人拥有了处理海量数据的技术支撑。进而发现数据的重要性,而要想从数据中发现有价值的信息。选择机器学习似乎是必定的趋势。当然也不排除舆论的因素。事实上本人一直对非常多人宣称掌握了机器学习持怀疑态度。而要想理解机器学习的精髓。数学知识是不可或缺的,比方线性代数。概率论和微积分、向量空间等。而假设没有一定的数学基础,使用机器学习也仅仅能是知其然而不知其所以然了。基于这个原因,将系统地总结学习机器学习中用到的一些数学知识,当然不可能面面俱到,但会尽可能准确。

        这篇文章首先学习概率论知识,概率论在机器学习中占主要地位。由于概率论为机器学习算法的正确性提供了理论依据。学习算法的设计常常依赖于对数据的概率假设以及在某些算法中被直接使用等。

排列组合

       排列:从n个不同元素中,任取m(m≤n,m与n均为自然数)个元素依照一定的顺序排成一列,称为从n个不同元素中取出m个元素的一个排列;从n个不同元素中取出m(m≤n)个元素的全部排列的个数,称为从n个不同元素中取出m个元素的排列数,用符号 A(n,m)表示。A(n,m)=n(n-1)(n-2)……(n-m+1)=n!/(n-m)!。通常我们所说的排列指的是全部排列的个数,即A(n,m)。

        组合:从n个不同元素中。任取m(m≤n)个元素并成一组,叫做从n个不同元素中取出m个元素的一个组合;从n个不同元素中取出m(m≤n)个元素的全部组合的个数,叫做从n个不同元素中取出m个元素的组合数。用符号 C(n,m) 表示。C(n,m)=A(n,m)/m!。C(n,m)=C(n,n-m)。

通常我们所说的组合指的是全部组合的个数。即C(n,m)。

       组合和排列的差别单从公式来看的话,C(n,m)=A(n,m)/m!,而为什么要除以m!呢?从定义分析。排列是一个有序的序列,也就是将元素x,y放在位置1。2和放在2。1是两个不同的序列,而组合关心的仅仅是是否选取了某个元素。而不考虑顺序,也就是x,y放在位置1。2还是2。1都被觉得是同样的组合。由于m个元素在m个位置有m!中排列方式,而这对组合来说仅仅是一种组合,因此须要除以m!。

随机变量

      在概率论中。随机变量扮演了重要的角色。千万不要将随机变量和通常所提到的变量相混淆,以为随机变量就是其值具有随机性的变量,而实际上。随机变量是函数。将试验结果映射为实数,更一般地理解为,随机变量是人为定义的基于试验结果的函数,该函数的定义域为试验结果的取值,其值域依据不同情境而不同。通常使用大写字母表示随机变量。

      假设随机变量X表示将投掷六面骰子的结果映射为实数,能够定义X将投掷的结果i映射为i,比方投掷的结果为2,则X的结果就为2。

还能够定义假设投掷结果为偶数。则X的结果为1。否则为0。这样的类型的随机变量被称为指示器变量。用于表示某一事件是否发生。

      随机变量X取值a的概率表示为P(X = a) 或P X(a),使用Val(X)表示随机变量的取值范围。

联合分布、边缘分布和条件分布

      随机变量的分布指的是取某些值的概率,由定义可知分布本质上是概率,使用P(X)表示随机变量X的分布。

当提及多于一个变量的分布时。该分布称为联合分布,由于此时概率由涉及的全部变量共同决定。

考虑以下这个联合分布的样例。X为投掷骰子的随机变量。取值为[1,6],Y为抛掷硬币的随机变量,取值为[0,1],二者的联合分布为:

P

X=1

X=2

X=3

X=4

X=5

X=6

Y=0

1/12

1/12

1/12

1/12

1/12

1/12

Y=1

1/12

1/12

1/12

1/12

1/12

1/12

      使用P(X=a,Y=b)或PX,Y(a,b)表示X取a,Y取b时的概率,使用P(X,Y)表示X。Y的联合分布。

给定随机变量X和Y的联合分布,能够定义X或者Y的边缘分布。边缘分布指的是某个随机变量自身的概率分布,为了计算某个随机变量的边缘分布,须要将联合分布中其他随机变量相加,公式为:

概率论机器学习的先验知识(上)

      条件分布指出了在当其他随机变量已知的情况,某个特定随机变量的分布。而对于某个随机变量X在Y=b的情况下取值为a的条件概率能够定义例如以下,并可依据该公式确定该变量的条件分布:

概率论机器学习的先验知识(上)

      能够将上述公式扩展到基于多个随机变量的条件概率。比方,基于两个变量的:

概率论机器学习的先验知识(上)

      使用符号P(X|Y=b)表示在Y=b的情况下,X的分布。P(X|Y)X分布的集合。当中每一个元素为Y取不同值时X的分布。

      在概率论中,独立性意味着一个随机变量的分布不受还有一个随机变量的影响。使用以下的数学公式定义随即变量X独立于Y:

概率论机器学习的先验知识(上)

      依据该公式及条件分布的公式能够推导出假设X独立于Y,那么Y也独立于X。推到步骤例如以下:

概率论机器学习的先验知识(上)

      依据上面的推到过程能够得出P(X,Y)=P(X)P(Y)。也就是该公式是X和Y相互独立的等价公式。

      更进一步能够定义条件独立。即已知一个或者多个随机变量的值,其余某些变量相互独立则称为条件独立。已知Z。X和Y相互独立的数学定义例如以下:

概率论机器学习的先验知识(上)

      最后再看两个重要的定理,分别为链式规则和贝叶斯规则。

链式规则的公式例如以下:

概率论机器学习的先验知识(上)

      贝叶斯规则的公式例如以下:

概率论机器学习的先验知识(上)

      贝叶斯公式通过计算P(Y|X)的值来得到P(X|Y)的值。该公式能够通过条件公式推导而出:

概率论机器学习的先验知识(上)

      分母的值可通过上面提到的边缘分布计算得出:

概率论机器学习的先验知识(上)

离散分布和连续分布

      广义上讲。存在两类分布。分别为离散分布和连续分布。

离散分布意味着该分布下的随机变量仅仅能取有限的不同值(或者结果空间是有限的)。能够通过简单地枚举随机变量取每一个可能值的概率来定义离散分布,这样的枚举的方式称为概率质量函数,由于该函数将单位质量(总的概率,1)切割然后分给随机变量能够取的不同值。

      连续分布意味着随机变量能够取无穷的不同值(或者结果空间是无穷的),使用概率密度函数(probability density function,PDF)定义连续分布。

概率密度函数f为非负的。可积分的函数:

概率论机器学习的先验知识(上)

      随机变量X的概率依据概率密度函数可得:

概率论机器学习的先验知识(上)

      特别的。一个连续分布的随机变量的值为不论什么给定单个值的概率为0,比方连续分布的随机变量X取值为a的概率为0。由于此时积分的上限和下限都为a。

      由概率密度函数可引申出累积分布函数。该函数给出了随机变量小于某个值的概率,与概率密度函数的关系为:

概率论机器学习的先验知识(上)

      因此依据不定积分的含义,
概率论机器学习的先验知识(上)

版权声明:本文博客原创文章,博客,未经同意,不得转载。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/117652.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Service Mesh详解

    Service Mesh详解ServiceMesh简介:这个词最早使用由开发Linkerd的Buoyant公司提出,并在内部使用。2016年9月29日第一次公开使用这个术语。2017年的时候随着Linkerd的传入,ServiceMesh进入国内技术社区的视野。最早翻译为“服务啮合层”,这个词比较拗口。用了几个月之后改成了服务网格。微服务(Microservices)是一种软件架构风格,它是以专注于单一责任与功能的小型功能区块(SmallBuildingBlocks)为基础,利用模块化

    2025年5月31日
    4
  • Windows server 2003 安装vs2005 sp1补丁包报1718错误的解决方法

    Windows server 2003 安装vs2005 sp1补丁包报1718错误的解决方法收藏于2012-03-30迁移自个人的百度空间——————————–解决步骤如下1.在控制面板中打开“管理工具“。2.双击“本地安全策略”。 3.单击“软件限制策略”。(注意:如果未列出软件限制,请右击“软件限制策略”,然后单击“新建策略”。)4.在“对象类型”下,双击“强制”。 5.单击“除本地管理员以外的所有用户”…

    2022年10月5日
    4
  • JAVA位移运算「建议收藏」

    JAVA位移运算「建议收藏」1、java将负整数转成二进制这里以8位为例,只是为了表明过程,实际中java的int类型是4byte,也就是32位。二进制的首位是符号位,0表示正数,1表示负数,在java中,会对负数进行取反加一操作,进而计算出实际的十进制值。如10101010,此8位的二进制数首位是1,表示负数,所以对后面的七位进行取反加一操作,即0101010–>1010110,换成十进制的数就是86,再加上首位的1表示负数,结果就是-86。2、位移运算1)正数的右移:如10>>2,左边自动补0,右边移出

    2025年5月28日
    2
  • 数据库 部分函数依赖 完全函数依赖 传递函数依赖 第一范式、第二范式、第三范式、BCNF范式区别

    数据库 部分函数依赖 完全函数依赖 传递函数依赖 第一范式、第二范式、第三范式、BCNF范式区别数据库部分函数依赖完全函数依赖传递函数依赖第一范式、第二范式、第三范式、BCNF范式区别在理解函数依赖之前,先来看一下函数依赖分析:在关系中,包括在任何候选码中的属性称为主属性;不包括在任何候选码中的属性称为非主属性。函数依赖只分析关系中的非主属性对主属性之间的依赖关系,并不分析主属性对主键(码)的依赖关系。具体关于部分函数依赖和完全函数依赖的定义,网上有很…

    2022年5月23日
    53
  • InetAddress 解析

    InetAddress 解析IP地址分为IPv4和IPv6。IPv44字节长的ip称为IPv4.目前大部分ip都是IPv4。IPv4地址一般写为四哥无符号的字节,每个字节范围从0到255,最高字节在前面。为方便人们查看,各字节用点号分割。例如:192.168.1.100.这称为点分四段格式。IPv616字节长的ip成为IPv6.IPv6地址通常些微冒号分割的8个区块,每个区块4个十六进制数字。例如:2400:c

    2022年6月23日
    33
  • 谈谈内存映射文件[通俗易懂]

    谈谈内存映射文件[通俗易懂]http://blog.csdn.net/ithzhang/article/details/7001650内存映射文件允许开发人员预订一块地址空间并为该区域调拨物理存储器,与虚拟内存不同的是,内存映射文件的物理存储器来自磁盘中的文件,而非系统的页交换文件。将文件映射到内存中后,我们就可以在内存中操作他们了,就像他们被载入内存中一样。内存映射文件主要有三方面的用途:1:系

    2022年6月17日
    32

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号