概率论——Wasserstein距离

全栈程序员-站长 • 2026年3月18日下午7:37 • 未分类 • 阅读 3

Wasserstein距离又叫Earth-Mover距离(EM距离)，用于衡量两个分布之间的距离，定义：

W (P 1, P 2) = inf γ \sim Π (P 1, P 2) E (x, y) \sim γ [| | x - y | |]

$W(P_1, P_2)=\inf_{\gamma \sim\Pi(P_1,P_2)} \mathbb E_{(x,y) \sim \gamma}[||x-y||]$

$\Pi(P_1,P_2)$ 是 $P_1$ 和 $P_2$ 分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布 $\gamma$ ，可以从中采样 $(x,y) \sim \gamma$ 得到一个样本 $x$ 和 $y$ ，并计算出这对样本的距离 $||x-y||$ ，所以可以计算该联合分布 $\gamma$ 下，样本对距离的期望值 $\mathbb E_{(x,y) \sim \gamma}[||x-y||]$ 。在所有可能的联合分布中能够对这个期望值取到的下界 $\inf_{\gamma \sim\Pi(P_1,P_2)} \mathbb E_{(x,y) \sim \gamma}[||x-y||]$ 就是Wasserstein距离。

直观上可以把 $\mathbb E_{(x,y) \sim \gamma}[||x-y||]$ 理解为在 $\gamma$ 这个路径规划下把土堆 $P_1$ 挪到土堆 $P_2$ 所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗。所以Wesserstein距离又叫Earth-Mover距离。

Wessertein距离相比KL散度和JS散度的优势在于，即使两个分布的支撑集没有重叠或者重叠非常少，仍然能反映两个分布的远近。而JS散度在此情况下是常量，KL散度可能无意义。

W (P 1, P 2) = sup | | f | | L \leq 1 E x \sim P 1 [f (x)] - E x \sim P 2 [f (x)]

$W(P_1, P_2)=\sup_{||f||_L\leq 1} \mathbb E_{x \sim P_1}[f(x)]- \mathbb E_{x \sim P_2}[f(x)]$

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/212637.html原文链接：https://javaforall.net

概率论——Wasserstein距离

关于作者

全栈程序员-站长

发表回复

概率论——Wasserstein距离

关于作者

全栈程序员-站长

相关推荐

🚀彻底改写Claude Code编程方式！从提示词工程到上下文工程！AI编程能力提升百倍！从需求分析到代码生成全自动化！保姆级实战教程！支持Windows！零

开始了!!!

BeanUtils.populate()的作用

maven安装及配置（详细版）

豆包AI保存路径找不到？文件存储位置查询

java二分法排序_二分法排序讲解『附视频』

发表回复