概率论 协方差矩阵_方差和均值的性质

概率论 协方差矩阵_方差和均值的性质http://blog.csdn.net/pipisorry/article/details/48788671要理解协方差矩阵,从以下几个步骤来说期望——>方差——>协方差——>协方差矩阵,这样更能理解它的由来和意义。本文主要讲意义和python里的使用,其实协方差矩阵有很强的实际意义和应用实例,有机会再补充。均值、方差和标准差给定一个含有n个样本的集合,可以得到样本的均值,方差和标准差。…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

http://blog.csdn.net/pipisorry/article/details/48788671

要理解协方差矩阵,从以下几个步骤来说 期望 ——> 方差——>协方差——>协方差矩阵,这样更能理解它的由来和意义。

本文主要讲意义和python里的使用,其实协方差矩阵有很强的实际意义和应用实例,有机会再补充。

均值、方差和标准差

给定一个含有n个样本的集合,可以得到样本的均值,方差和标准差。

均值

x¯=1ni=1nxi

样本方差

s2=1ni=1n(xix¯)2

总体方差

这里写图片描述

方差的算术平方根称为该随机变量的标准差。反应组内个体的离散程度,用数学符号σ表示。

总体标准差

这里写图片描述

为什么方差和标准差这里除以的是n-1 而不是 n?

[为什么样本方差(sample variance)的分母是 n-1? – 知乎]
这个讨论下有很多答案,综合来看就很完善了。其实在现在的大数据情况下,这一区别也就很小了。

样本均值的抽样分布

概率论 协方差矩阵_方差和均值的性质 

[第 1 章 绪论 | 数理统计讲义]

精度precision

方差的倒数。β = 1/σ^2。

加权平均值

概率论 协方差矩阵_方差和均值的性质

加权标准差

概率论 协方差矩阵_方差和均值的性质

[如何计算加权标准偏差?在Excel中?]

期望

参见wiki中的数学定义如下:
这里写图片描述

期望的性质

概率论 协方差矩阵_方差和均值的性质

概率论 协方差矩阵_方差和均值的性质

概率论 协方差矩阵_方差和均值的性质

条件期望

概率论 协方差矩阵_方差和均值的性质

[条件数学期望]

皮皮blog

方差

一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。
这里写图片描述

方差的性质

概率论 协方差矩阵_方差和均值的性质

随机变量的乘积和商的方差 

概率论 协方差矩阵_方差和均值的性质

一般V(x1x2)的方差推导到右边第二步即可,因为第4步中计算V(x1)还是需要通过V(x)公式计算(需要计算E(x^2))
同理V(x1/x2-b)=E(x1^2)/E(x2^2)-[E(x1)]^2/[E(x2)]^2

[想问随机变量的乘积的方差怎么推?还有随机变量的商的方差呢 – 知乎

方差体现的向量性质

概率论 协方差矩阵_方差和均值的性质

切比雪夫不等式

概率论 协方差矩阵_方差和均值的性质

 切比雪夫不等式,对任何分布形状的数据都适用。lz这个不等式衡量的是变量的样本值和总体均值的接近程度。

在概率论中,切比雪夫不等式(英语:Chebyshev’s Inequality)显示了随机变量的“几乎所有”值都会“接近”平均。这个不等式以数量化这方式来描述,究竟“几乎所有”是多少,“接近”又有多接近:

  • 与平均相差2个标准差以上的值,数目不多于1/4
  • 与平均相差3个标准差以上的值,数目不多于1/9
  • 与平均相差4个标准差以上的值,数目不多于1/16
  • ……
  • 与平均相差k个标准差以上的值,数目不多于1/k^2

举例说,若一班有36个学生,而在一次考试中,平均分是80分,标准差是10分,我们便可得出结论:少于50分或多于110分(与平均相差3个标准差以上)的人,数目不多于4个(=36*1/9)。

概率论 协方差矩阵_方差和均值的性质

[https://zh.wikipedia.org/wiki/%E5%88%87%E6%AF%94%E9%9B%AA%E5%A4%AB%E4%B8%8D%E7%AD%89%E5%BC%8F]

Chernoff-Hoeffding不等式

概率论 协方差矩阵_方差和均值的性质

lz这个不等式衡量的是样本均值和真实均值的期望的接近程度。

[统计学习中的几个概率不等式

在ucb中的应用
求估计出来的前n次收益均值ra^bar 跟 真实收益ra的差值的概率上下界。

概率论 协方差矩阵_方差和均值的性质

 [计算广告中的点击率预估问题]

[Chernoff-Hoeffding Bound]

皮皮blog

协方差

方差和标准差反应的是一维数据的分布情况,那么如果要处理二维甚至更高维度的数据时该怎么办呢?
协方差表示的是两个随机变量的关系,首先我们看下它的定义:
这里写图片描述
联系前面的方差也就很好理解了,方差其实就是协方差的特殊形式

那么协方差是如何表示两个随机变量的关系的呢?
协方差表示在多大程序上x和y会共同变化。简单来说就是如果两个随机变量的协方差>0,则两者是正相关的,结果为负值就说明负相关的。如果为0,说明两者是不相关的,这里特别说明下,如果两个随机变量是相互独立的那么协方差
cov(X, Y) = cov( Y, X) = E(X, Y ) – uv = E(X) E(Y) – uv = uv- uv = 0
但是如果cov(X, Y) = 0 并不能说明X, Y相互独立,只能说明两者不相关,这里牵扯到相关系数,不详细说了。

[协方差的意义]

协方差矩阵

协方差计算的是两个随机变量间的关系,那么如果有n个随机变量呢,两两计算cov需要计算n!2(n−2)!次,因此用矩阵来表示这个计算就得到协方差矩阵了。
定义:
这里写图片描述
Note: 根据定义,上面的协方差矩阵计算的是行向量X1, X2…(其中Xi代表的的随机变量,不是观测值)之间的协方差。随机变量举个例子就是坐标系中不同维度(坐标)(x1, x2, …, xn)而不是坐标点(xi, yi, zi),这点要格外注意。

协方差使用示例

设有一个三维的数据集{ X, Y, Z},则协方差矩阵如下:
这里写图片描述

下面用代码验证下结果,并说下python中的协方差矩阵的函数使用。

4个坐标点,共3个维度(变量),每个维度4个值,下面这段代码中E是通过上面的公式来计算协方差矩阵的,然后调用np.cov(X, bias=1)和np.cov(X)函数进行对比:

import numpy as np

X = np.array([[0, 0, 0], [1, 0, 1], [1, 0, 0], [1, 1, 0]]).T
print('X = \n%s\n' % X)

X_mean = np.mean(X, 1)
E = np.zeros([len(X), len(X)])
for i in range(len(X)):
    for j in range(i, len(X)):
        E[j, i] = E[i, j] = (X[i] - X_mean[i]).dot(X[j] - X_mean[j]) / len(X[i])
print('E = \n%s\n' % E)

print("np.cov(X, bias=1) = \n%s\n" % np.cov(X, bias=1))
print("np.cov(X) = \n%s\n" % np.cov(X))

Jetbrains全家桶1年46,售后保障稳定

结果如下:
X = 
[[0 1 1 1]
 [0 0 0 1]
 [0 1 0 0]]

E = 
[[ 0.1875  0.0625  0.0625]
 [ 0.0625  0.1875 -0.0625]
 [ 0.0625 -0.0625  0.1875]]

np.cov(X, bias=1) = 
[[ 0.1875  0.0625  0.0625]
 [ 0.0625  0.1875 -0.0625]
 [ 0.0625 -0.0625  0.1875]]

np.cov(X) = 
[[ 0.25        0.08333333  0.08333333]
 [ 0.08333333  0.25       -0.08333333]
 [ 0.08333333 -0.08333333  0.25      ]]

因此,python中cov默认(也就是bias=0)的计算公式应该如下:
这里写图片描述

且不同维度的表示用的是行向量,就是X中元素是行向量,代表某个维度。

Note

1. numpy中的方差计算是除以N,而协方差计算是除以N-1,所以会发现单独计算向量的方差并不会与计算两个向量的协方差矩阵对角线上的元素相等![numpy教程 – 统计函数]

2. 注意这里的(X[i] – X_mean[i]).dot(X[j] – X_mean[j]) / len(X[i]),其中(X[i] – X_mean[i]).dot(X[j] – X_mean[j]) 是向量相乘,相当于使用了和公式∑,之后再除以len(X[i])

from:概率论:均值、方差与协方差矩阵_皮皮blog-CSDN博客_均值和方差

ref:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/215527.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • string数组怎么定义对象_定义二维字符型数组

    string数组怎么定义对象_定义二维字符型数组这里是IT修真院分享课,今天要分享的主题是【string数组怎么定义】string数组的定义有三种:Stringarr[]=newString[10];//创建一个长度为10的String类型数组。Stringarr[]={“张三”,”李四”};String[]str=newString[]{“”,””,””,””,””};Stringar…

    2022年4月20日
    61
  • 怎么查看tomcat是否安装_如何查看申报是否成功

    怎么查看tomcat是否安装_如何查看申报是否成功Step1、下载软件安装包访问Apache官网,tomcat是开源组织Apache成员,我们可以在Apache官网中下载tomcat。下载网址:http://tomcat.apache.org/打开页面如下可以在当前这个页面选择自己想要下载的版本。Step2、下载后,直接解压,是免安装的包,进入Tomcat的安装路径bin目录下,我放的是本机的D盘,

    2026年1月22日
    1
  • C语言结构体(struct)常见使用方法[通俗易懂]

    C语言结构体(struct)常见使用方法[通俗易懂]注意:盗版是不会得到修正和更新的!今天复习一下struct,顺便挖掘一下以前没注意的小细节:基本定义:结构体,通俗讲就像是打包封装,把一些有共同特征(比如同属于某一类事物的属性,往往是某种业务相关属性的聚合)的变量封装在内部,通过一定方法访问修改内部变量。(因为C++和C有共通之处,但是在结构体上的某些机制又有所不同,所以后边提了一下,不喜欢可以略过)结构体定义:…

    2022年5月12日
    76
  • php sigpipe,遭遇SIGPIPE[转]

    php sigpipe,遭遇SIGPIPE[转]转自:http://www.diybl.com/course/3_program/c++/cppjs/20090831/173152.html我写了一个服务器程序,在Windows下在cygwin环境编译后执行,然后用C#写了多线程客户端进行压力测试.程序一直运行正常.但当在Linux下测试时,总是莫名退出.最后跟踪到是write调用导致退出.用gdb执行程序,退出时提示”Broken…

    2022年5月30日
    38
  • mysql查看查询慢的语句_sql慢查询如何优化

    mysql查看查询慢的语句_sql慢查询如何优化Mysql慢查询设置分析MySQL语句查询性能的方法除了使用EXPLAIN输出执行计划,还可以让MySQL记录下查询超过指定时间的语句,我们将超过指定时间的SQL语句查询称为“慢查询”。=========================================================方法一:这个方法我正在用,呵呵,比较喜欢这种即时性的。Mysql5.0以上的版本可以支持将执行…

    2022年10月14日
    3
  • 语音合成技术_ai语音合成软件免费的

    语音合成技术_ai语音合成软件免费的语音合成技术原理语音合成(texttospeech),简称TTS。将文字转化为语音的一种技术,类似于人类的嘴巴,通过不同的音色说出想表达的内容。将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。TTS的基本组成:(1)文本分析对输入文本进行语言学分析(主要模拟人对自然语言的理解过程),逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。使计算机对输入的文本能完全理解,

    2025年8月24日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号