机器学习中的数学——距离定义(二十六):Wasserstein距离(Wasserstei Distance)/EM距离(Earth-Mover Distance)

机器学习中的数学——距离定义(二十六):Wasserstein距离(Wasserstei Distance)/EM距离(Earth-Mover Distance)Wasserstein 距离也被称为推土机距离 EarthMover sDistance EMD 用来表示两个分布的相似程度 Wasserstein 距离衡量了把数据从分布 ppp 移动成 分布 q 时所需要移动的平均距离的最小值 Wasserstein 距离是 2000 年 IJCV 期刊文章 TheEarthMove sDistanceasa 提出的一种直方图相似度量 如果两个分布 ppp 和 q 离得很远 完全没有重叠的时候 那么 KL 散度值是没有意义的


Wasserstein距离也被称为推土机距离(Earth Mover’s Distance,EMD),用来表示两个分布的相似程度。Wasserstein距离衡量了把数据从分布 p p p移动成”分布 q q q时所需要移动的平均距离的最小值。Wasserstein距离是2000年IJCV期刊文章《The Earth Mover’s Distance as a Metric for Image Retrieval》提出的一种直方图相似度量。如果两个分布 p p p q q q离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为0,即梯度消失,而Wasserstein距离可以解决这个问题。

我们将两个分布 p p p q q q看成两堆土,如下图所示,希望把其中的一堆土移成另一堆土的位置和形状,有很多种可能的方案。推土代价被定义为移动土的量乘以土移动的距离,在所有的方案中,存在一种推土代价最小的方案,这个代价就称为两个分布的Wasserstein距离。
Wasserstein距离
Wasserstein距离的形式化的表达式如下:
W ( p , q ) = inf ⁡ γ ∼ ∏ ( p , q ) E x , y ∼ γ [ ∣ ∣ x − y ∣ ∣ ] W(p, q)=\inf_{\gamma\sim\prod(p,q)}E_{x, y\sim\gamma}[||x-y||] W(p,q)=γ(p,q)infEx,yγ[xy]


其中, ∏ ( p , q ) \prod(p,q) (p,q)表示​分布 p p p q q q组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布 γ \gamma γ可以从中采样 ( x , y ) ∼ γ (x, y)\sim\gamma (x,y)γ得到一个样本​ x x x ​ ​ y,并计算出这对样本的距离 ∣ ∣ x − y ∣ ∣ ||x-y|| xy,所以可以计算该联合分布 γ \gamma γ下,样本对距离的期望值 E x , y ∼ γ [ ∣ ∣ x − y ∣ ∣ ] E_{x, y\sim\gamma}[||x-y||] Ex,yγ[xy]​。在所有可能的联合分布中能够对这个期望值取到的下界就是Wasserstein距离。用推土的方式理解就是, E x , y ∼ γ [ ∣ ∣ x − y ∣ ∣ ] E_{x, y\sim\gamma}[||x-y||] Ex,yγ[xy]是在 γ \gamma γ这种路径规划下,把 p p p​这堆土,移成​ q q q的样子的消耗,而Wasserstein距离就是在”最优路径规划“下的最小消耗。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/221192.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午6:42
下一篇 2026年3月17日 下午6:42


相关推荐

  • 分散式-ubuntu12.04安装hadoop1.2.1

    分散式-ubuntu12.04安装hadoop1.2.1

    2022年1月5日
    52
  • USB转485工业级两线制转换器

    USB转485工业级两线制转换器技术指标单片(ASIC)USB端口到串行端口通信,支持即插即用和热插拔RS485口特性:接口兼容RS485标准,信号:T/R+,T/R-,GND电气接口:DB9针型(公头)连接口加外配接线板,波特率:300bps-921.6Kbps支持串行数据帧格式:8数据位,奇/偶/无校验位,1停止位USB端口提供全速12Mbps的传输速率完全符合U…

    2022年5月27日
    40
  • http415错误

    http415错误ajax传json数据到controller接受数据碰到415错误415:UnsupportedMediaType :服务器无法处理请求附带的媒体格式解决步骤:1.ajax设置contentTypecontentType:’application/json;charset=UTF-8′,2.设置datadata:JSON.stringify(requestData),…

    2022年5月23日
    53
  • 简易漫画网站搭建-漫画喵Server版

    简易漫画网站搭建-漫画喵Server版本文实现了一个简单的个人漫画网站,配合之前的漫画爬虫使用。享受无处不在的漫画生活。github地址:https://github.com/miaoerduo/cartoon-cat-server

    2022年8月4日
    11
  • Android开发—-简单几步教你制作一个简易的音乐播放器

    Android开发—-简单几步教你制作一个简易的音乐播放器前言:本博文只教你编程的思想,就举一个简单的例子来实现我们的简易的音乐播放器,大家不喜勿喷啊友情提示:本博文用到的是AndroidStudio进行开发的,软件安装教程:AndroidStudio安装教程:文章目录:一.缓冲界面实现:二:播放音乐界面:一.缓冲界面实现:在前面的博客中也讲到了关于界面缓冲跳转的方法,详情请查:3种方式实现界面缓冲,为什么要设置这个呢?自我感觉当用户点进应用后,至少有一个缓冲时间,不仅仅是让用户缓冲也是为了让程序内部进行缓冲缓冲,话不多说一起来看看设计:当然首先是界

    2022年7月16日
    18
  • 增强版在线LEFSe分析和可视化鉴定标志性基因或物种

    增强版在线LEFSe分析和可视化鉴定标志性基因或物种LEfSe分析即LDAEffectSize分析,是一种用于发现和解释高维度数据生物标识(基因、通路和分类单元等)的分析工具,可以进行两个或多个分组的比较,它强调统计意义和生物相关性,…

    2022年6月10日
    51

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号