负采样方式

全栈程序员-站长 • 2022年6月29日下午3:16 • 未分类 • 阅读 25

负采样方式一、随机负采样二、曝光未点击三、混合负采样四、重要性采样五、有偏采样六、NCE采样参考：[mixednegativesampling]MixedNegativeSamplingforLearningTwo-towerNeuralNetworksinRecommendations（2020） [Youtube]Sampling-Bias-CorrectedNeuralModelingforLargeCorpusItemRecomme

大家好，又见面了，我是你们的朋友全栈君。

目录

一、随机负采样

二、Real-Negative Subsampling

三、加权随机负采样

四、拒绝接受采样

五、Metropolis-Hastings ( MH ) 采样

六、吉布斯采样

七、蒙特卡洛采样

八、重要性采样（Importance Sampling）

九、有偏重要性采样

十、NCE采样

十一、混合负采样

十二、DFN模型：三类样本

推荐系统存在的数据问题：

1、训练数据跟线上数据分布不一致；

2、曝光未点击的item应该是偏正样本，而不是正样本or负样本；

3、数据稀疏问题，正负样本数量差距大；

4、长尾分布问题；

一、随机负采样

1、实现：在物料池中，随机选择负样本；

2、问题：头部效应很重，热门item有大量的正样本，而冷物品有大量负样本，难以均衡化；

3、改进方式：热门物品作正样本时，降采样；作负样本时，过采样；

二、Real-Negative Subsampling

1、实现：训练集中具有较高曝光频率的item的负样本三元组，以这个概率丢弃：

负采样方式

三、加权随机负采样

1、实现：根据广的曝光频次对item进行分组，将大于阈值的记为A_high, 小于阈值的为A_low, f(a)为item a的曝光频次，生成一个（0，1）之间的随机数p，若p小于P_l，则从A_low中使用均匀采样的方法得到一个item，否则从A_high中基于unigram distribution分布采样得到一个item。P_I的定义为：

负采样方式

四、拒绝接受采样

1、定义：均匀分布会使得一些低概率样本出现过多，所以可以通过拒绝部分样本的方式来获取所需分布。假设需要的分布为p(x)，其他分布样本为q(x)，二者关系为p(x) = c q(θ) α(x)，为使得q(x) >= p(x)，采样过程为：

负采样方式

五、Metropolis-Hastings ( MH ) 采样

1、定义：通过拒绝接受样本在计算过程中有大量计算是无用的。因此选取合适的分布 q 是十分必要的。但这通常都很难获得，所以产生了MH采样，通过构造符合细致平稳条件的转移矩阵Q来实现：

负采样方式

六、吉布斯采样

1、定义：Gibbs采样时特殊的MH采样。Gibbs抽样是马尔科夫链（MCMC）的一个特例，它交替的固定某一维度，然后通过其他维度的值来抽样该维度的值。特别地，gibbs采样只对z是高维（2维以上）情况有效。

详见吉布斯采样（Gibbs采样） – emanlee – 博客园

七、蒙特卡洛采样

1、思路：把和或者积分视作某分布下的期望，然后通过估计对应的平均值来近似这个期望：

负采样方式

本质就是就是加权求和，其权重为随机变量 x 的概率分布（求和时）或者概率密度函数（求积分时）。概率越高的地方，该变量被采样的几率越大，对应函数值的权重越大，故通过采样数据的经验平均可以近似整体的和或积分。

八、重要性采样（Importance Sampling）

1、思路：在蒙特卡洛采样的公式 E[f(x)] = ∑p(x) f(x) 的基础上，构造分解：

负采样方式

这样就可以把q(x)视为采样概率，估计 pf/q 在此分布下的期望。相当于在新的采样函数下，函数值 f(x) 被乘上了一个采样权重 p/q。

详见重要性采样（Importance Sampling） – 知乎

九、有偏重要性采样

1、思路：对于重要性采样，q分布的好坏可以显著影响蒙特卡洛估计的效率，所以目标是找到最优采样函数q。最优采样函数并不一定是适合采样的那个，只是方差最小的一个而已，其他能降低方差的 q 其实都可以。这种方法有一个优势，即不需要归一化的 p 或 q 分布。在处理离散变量时，有偏重要采样估计可以表示为：

负采样方式

十、NCE采样

详见噪声对比估计 Noise Contrastive Estimation

十一、混合负采样

详见【reco|负采样】Mixed Negative Sampling for Learning Two-tower Neural Networks in Recommendations – 七克-7ke

十二、DFN模型：三类样本

1、定义：

正样本（用户点击）
easy 负样本（随机筛选，模型很容易区分出）
hard负样本（能够增加模型训练难度，可提升模型关注细节的能力）

2、方式：

用其他样本的点击作为负样本；

取上一版本的召回排在101~500的样本作为负样本；

参考：

[mixed negative sampling] Mixed Negative Sampling for Learning Two-tower Neural Networks in Recommendations（2020）
[Youtube] Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations（2019）
[NCE采样] A fast and simple algorithm for training neural probabilistic language models（2012）
[importance sampling] Quick Training of Probabilistic Neural Nets by Importance Sampling（2003）
推荐系统的负采样_qq_39125106的博客-CSDN博客_推荐系统负采样
采样算法简述 – 知乎
PR Sampling Ⅰ: 蒙特卡洛采样、重要性采样及python实现 – 知乎
推荐系统论文阅读（三十三)-百度：谈谈召回任务中负样本的选取优化 – 简书

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/148068.html原文链接：https://javaforall.net

赞 (0)

全栈程序员-站长

0 0

pytest报错_eclipse提交代码到git

pytest报错_eclipse提交代码到git前言我们每天写完自动化用例后都会提交到git仓库，随着用例的增多，为了保证仓库代码的干净，当有用例新增的时候，我们希望只运行新增的未提交git仓库的用例。pytest-picked插件可以

全栈程序员-站长
2022年7月28日
6
iOS线程间通信_iOS开启while1线程

iOS线程间通信_iOS开启while1线程什么叫做线程间通信在1个进程中，线程往往不是孤立存在的，多个线程之间需要经常进行通信线程间通信的体现 1个线程传递数据给另1个线程在1个线程中执行完特定任务后，转到另1个线程继续执行任务线程间通信常用方法1.NSThread：一个线程传递数据给另一个线程-(void)performSelectorOnMainThread:(SEL)aSelectorwi…

全栈程序员-站长
2022年10月6日
6
vdbench和fio测试磁盘性能的对比总结

vdbench和fio测试磁盘性能的对比总结vdbench和fio测试磁盘性能的对比总结一、安装1、安装vdbench，首先安装java：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 其次下载vdbench安装包并进行安装：http://pan.bai…

全栈程序员-站长
2022年5月19日
182
php探针文件内容

php探针文件内容

全栈程序员-站长
2022年2月15日
43
Django（46）drf序列化类的使用(ModelSerializer)「建议收藏」

Django（46）drf序列化类的使用(ModelSerializer)「建议收藏」前言我们上篇文章使用到了Serializer类，可能有小伙伴说太过复杂，那么本篇就为大家带来更加简便的序列化类ModelSerializerModelSerializer先来看下ModelSer

全栈程序员-站长
2022年7月30日
10
关于pycharm安装第三方库的一些方法_pycharm安装本地第三方库

关于pycharm安装第三方库的一些方法_pycharm安装本地第三方库问题集合记得关梯子记得关梯子记得关梯子要是遇到pip命令报错，或者在pycharm中无法下载第三方库，首先检查一下梯子是否开了的。我的环境：pycharm+anaconda虚拟环境问题1：问题：WARNING:Youareusingpipversion21.2.4;however,version21.3.1isavailable.Youshouldconsiderupgradingviathe’D:\anaconda\envs\py36\python.e

全栈程序员-站长
2022年8月28日
5

发表回复

关注全栈程序员社区公众号