一个均衡的数据集固然大大简化了对算法鲁棒性的要求,也一定程度上保障了所得模型的可靠性,但随着关注类别的逐渐增加,维持各个类别之间均衡就将带来指数增长的采集成本。
长尾分布数据:就是少数类别有大部分数据,而多数类别只有小部分数据。
直接利用长尾数据来训练的分类和识别系统,往往会对头部数据过拟合,从而在预测时忽略尾部的类别。如何有效的利用不均衡的长尾数据,来训练出均衡的分类器就是我们所关心的问题,从工业需求上来说,该研究也将大大地提升数据采集的速度并显著降低采集成本。

常用的解决方法:
class re-balancing 策略,比如 re-weighting 或 re-sampling。
正面作用: 能够调整网络的训练,通过在小批量内对样本重新取样或对样本损失重新加权,期望更接近于测试的分布,因此,类别的 re-balancing 可以直接影响深层网络分类器权重的更新,从而促进分类器的学习。
负面作用:
目前最好的方法:解耦训练,但这种方法需要额外的微调。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/207877.html原文链接:https://javaforall.net
