新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]上次我们简单的介绍了一下学渣莫兰同学的逆袭之旅,梦想成为一个数学家的他最后阴差阳错的成为了一个统计学家,所以虾神不禁陷入沉思:好了,不说数学了,我们今天继续来说莫兰指数。我们先来看看莫兰…

大家好,又见面了,我是你们的朋友全栈君。

CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D

转发、转载和爬虫,请主动保留此声明。

上次我们简单的介绍了一下学渣莫兰同学的逆袭之旅,梦想成为一个数学家的他最后阴差阳错的成为了一个统计学家,所以虾神不禁陷入沉思:

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

好了,不说数学了,我们今天继续来说莫兰指数。

我们先来看看莫兰指数的原理。

先看看下面这样一个属性数据的相关分析图,假设这是四个城市的房价数据——

当北京连续三个月上升的时候,石家庄也连续三个月上升,这样我们就可以认为(在本次分析中)北京和石家庄的房价是正相关的,所以我们记为1。

同样,北京上升的同时,太原连续三个月下降,就认为是负相关,记为-1。

北京上升,但是天津有升有降,那么这样就可以他们之间是不相关,记为0

类推,西安,正相关,记为1。

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

属性相关性的分析非常容易,那么到了空间自相关应该怎么办呢?虽然莫兰提出莫兰指数的时候,所谓的地理学第一定律还没有被发布(1950年,托布勒还在读大学,莫兰同学已经是牛津大学的讲师了),但是莫兰在随机概率的研究中发觉,空间分布对动物种群研究的重要性,所以开创性的在相关性研究中,加入了空间相邻的参数,如果加入空间关系,就会得到这样一个空间权重关系:

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

之后,四个城市之间的空间权重矩阵就应该是:

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

那么,最简单的对二者之间,做一个乘法,就得到这样一个值(与北京的空间自相关):

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

可以看见,空间关系就两种:相关 or 不相关,属性有三种:正、负、无,所以乘积就得到三种情况:

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

这就是莫兰指数的原理:属性与空间关系的乘积,得到最终的空间上的相关性。空间关系在自相关分析里面,起到的作用就是判定是否有关系,空间上不相关,那么属性再相关也没有用。

在这个例子里面,北京被认为与太原有临近关系,而他们的属性又正好是负相关,所以空间加权之后,就认为是空间负相关,再按照空间分布模式的规则,两个蹲在一起的,属性不相似,那就是所谓的离散关系。

而北京与石家庄在空间上也有临近关系,而且属性相似,为正相关,所以加权之后被计算为空间自相关,在自己身边有相似的伙伴,就是所谓的聚集模式。

下面我们来看看那莫兰当年给莫兰指数定义的计算公式:

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

好吧好吧,数学公式就不写了,有兴趣的同学见(以后可能会有的)黑话空间统计学算法篇里面的内容。我只是简单说说莫兰指数如何进行计算的基础过程:

第一件事就是计算出所有要素之间的空间关系,形成空间关系矩阵,不过用矩阵来进行存储的话,有足足50%+的浪费,所以所有的计算莫兰指数的软件,都用的稀疏矩阵来进行记录的,比如上面那个矩阵,记录的方式就是:


北京:天津、石家庄、太原

天津:北京、石家庄、太原

石家庄:北京、天津,太原

太原:北京、天津、石家庄

西安:(空)


然后以此对有关系的城市之间进行计算,因为莫兰指数计算的是截面数据,所以不可能会出现多个时间片段的数据,单个数值之间,怎么进行相关性对比呢?答案就是用属性值与平均数之间的差(离差)来进行判定。

总所周知,离差是衡量数据分布离散程度的一种非常有效的指标,所以莫兰在这里用每个要素与相邻要素的离差乘积,然后乘以空间关系系数,作为分子,然后用所有数据的离差平方和作为分母,计算出所有数据之间的离散程度来,接下去用总的要素数量除以所有空间关系权重的和,来作为总体系数权重,把二者相乘,就得到了结果,用公式表达就是:

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

好吧,我食言了……

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

从这个公式可以看出,每个要素会和与自身有空间临近关系的要素进行计算——没有临近关系,比如上面示例里面的西安,空间相关系数为0,结果自然都是0了。

从这个数学公式上面看来,莫兰同学当年的设计非常的精巧,虾神这种数学学渣到现在读到这个公式都觉得颇为惊艳,我们来感受一下这个公式的美:

假设所有的数值的平均数是10的话:

北京的数值是50

天津的数值是5

北京的离差就是40,而天津的离差就是-5,二者的乘积就是-200

那么如果:

北京的数值是50,

石家庄的数值是40,

北京的离差还是40,石家庄的离差就是30,二者离差的乘积就是1200

换一个更小的数值的话:

比如太原的数值是5

石家庄的数值是3

二者的离差就是-5和-7,得到的乘积就是35,还是正值。

那么从这个算法我们可以看见,两个值同时大于或者小于均值,就能得到正值,而被均值正好切开的两个值,就会得到负值——与参与计算的数值与均值偏离越大,得到的结果的绝对值就越大,所以空间上有关系的,而且有彼此接近的数值,表达成了聚集分布,而反之亦然。

高值周边聚集高值或者低值周边聚集低值,都计算为正——表示为聚集,而高低值相互交错,那么就会计算为负,表示为离散。如果有正有负,相互抵消为0,那么就表达为随机。

而公式中的分子部分,是通过方差进行归一化,因此最终该指数的值将落在 -1.0 到 +1.0 的区间内。

新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]

这就是可怕的数学家啊……天地为炉,造化为工,阴阳为炭,万物为铜

读懂了这个公式之后,给一张纸一支笔,就能够手算了,不过十个八个要素,咬咬牙能算出,但是给你180个要素来计算,估计你就要抓瞎了,所以最简单的方式,就是用现成的工具来实现,比如ArcGIS,所以下一章,我们看看在ArcGIS里面,如何利用现成的工具来进行莫兰指数的计算。

(待续未完)

CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D

转发、转载和爬虫,请主动保留此声明。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/153081.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • v-if与v-show的区别

    v-if与v-show的区别相同点:v-if与v-show都可以动态控制dom元素显示隐藏不同点:v-if显示隐藏是将dom元素整个添加或删除,而v-show隐藏则是为该元素添加css–display:none,dom元素还在。都修改为false后,第一个div是直接被移除掉了需要注意的是,当一个元素默认在css中加了display:none属性,这时通过if-show修改为true是无法让元素显示的。…

    2022年6月13日
    31
  • mysql 设置主键命令_MySQL常用命令

    mysql 设置主键命令_MySQL常用命令1、修改MySQL密码方法一:usemysql;updateusersetpassword=PASSWORD(“123456”)whereuser=‘root’;flushprivileges;忘记密码:sed-ri’3dskip-grant-tables’/etc/my.cnfsystemctlrestartmariadbusemysql;updateuse…

    2022年6月20日
    29
  • git 命令总结

    1.配置gitconfig–globaluser.name"yourname"gitconfig–globaluser.emailmail@box.co

    2021年12月22日
    42
  • 决策树与随机森林(从入门到精通)[通俗易懂]

    决策树(decisiontree)是一种基本的分类与回归方法,本文主要讨论用于分类的决策树。决策树学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。而随机森林则是由多个决策树所构成的一种分类器,更准确的说,随机森林是由多个弱分类器组合形成的强分类器。

    2022年4月17日
    43
  • 私有云的构建组成

    私有云的构建组成无论在公有云还是私有云中 你都无需去考虑底层基础设施 而只需要通过虚拟机和网络处理业务 当然 硬件在供应商那里 如果你正在构建一个私有云 会有很多选项来决定如何去构建它 每个选项都有不同的特性 安全性能和成本 但是在任何一种情况下 你都必须保留大量的安全责任 私有云这些选项与传统的服务器部署模式类似 你可以部署在自己的服务器上 也可以在一个联合本地中心部署 你甚至可以在 托管但是专用 的基础上

    2026年1月19日
    2
  • 运维人员常用到的 11 款服务器监控工具

    运维人员常用到的 11 款服务器监控工具点击上方“民工哥技术之路”,选择“设为星标”回复“1024”获取独家整理的学习资料!服务器监控工具功能相当强大,无论何时何地,我们都可以了解到服务器的功能以及性能。服务器监控工具的使用,…

    2022年5月20日
    46

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号