长尾分布数据_厚尾分布

长尾分布数据_厚尾分布长尾分布数据11.什么是长尾分布数据长尾分布数据是一种偏态分布,是指几个类别(亦叫头类)包含大量的样本,而大多数类别(亦叫尾类)只有非常少量的样本。类似这样的数据集会使得深度学习网络在头部类中表现良好,在尾部类中效率不高,整体的识别精度显著下降。2.解决办法大多数研究者通过不平衡学习策略来解决长尾识别问题,主要分为两类:数据级方法和算法级方法。数据级方法数据水平的策略包括尾部类过采样,头部类欠采样,以及其他新的抽样方法。所以解决手段主要着力于如何对数据进行抽样。这种方法存在的问题是,过采

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

长尾分布数据1

1. 什么是长尾分布数据

长尾分布数据是一种偏态分布,是指几个类别(亦叫头类)包含大量的样本,而大多数类别(亦叫尾类)只有非常少量的样本。

在这里插入图片描述

类似这样的数据集会使得深度学习网络在头部类中表现良好,在尾部类中效率不高,整体的识别精度显著下降。

2. 解决办法

大多数研究者通过不平衡学习策略来解决长尾识别问题,主要分为两类:数据级方法和算法级方法。

数据级方法

数据水平的策略包括尾部类过采样,头部类欠采样,以及其他新的抽样方法。所以解决手段主要着力于如何对数据进行抽样。这种方法存在的问题是,过采样会导致过拟合,欠采样会导致头部类大量有效信息丢失。

算法级方法

  • 通过成本敏感算法来调整类别权重,一定程度缓解长尾分布不平衡问题,提高了尾类识别精度,但降低了头类精度。
  • 将头部数据中学习到的知识迁移到尾类,这种迁移学习的缺点是在头尾类特征相差特别大的时候,效果不好。如头类是动物,尾类是植物。
  • 层次学习方法,将长尾识别问题转为层次化超类学习问题。知识的迁移是受限的,只能从超类转移到它的直接子类。如尾类哈士奇的识别过程中,首先将其识别为头类的动物类,再归类为一只哈士奇狗。这个过程中,动物的知识不会转移到植物类。即,对头部类的知识迁移进行了限制,限制的方式是父子类层次关联。

Reference


  1. Q. Chen, Q. Liu和E. Lin, 《A knowledge-guide hierarchical learning method for long-tailed image classification》, Neurocomputing, 卷 459, 页 408–418, 10月 2021, doi: 10.1016/j.neucom.2021.07.008. ↩︎

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/204018.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • c#生成静态html文件,封装类

    由于这段时间比较轻松,于是想到很多的企业网站,新闻网站需要将页面静态化,于是写了个封装类来实现静态文件的生成,思路比较简单,但未完善,网友可根据自己的思路将此类扩展,运用了简单工厂模式(本来刚开始看设

    2021年12月20日
    38
  • ntp网络时间协议_ntp网络时间协议特性

    ntp网络时间协议_ntp网络时间协议特性NTP是网络时间协议(NetworkTimeProtocol),它是用来同步网络中各个计算机的时间的协议。  原理:NTP要提供准确的时间,就必须有准确的时间来源,那可以用格林尼治时间吗?答案是否定的。因为格林尼治时间是以地球自转为基础的时间计量系统,但是地球每天的自转是有些不规则的,而且正在缓慢加速,因此,格林尼治时间已经不再被作为标准时间使用。新的标准时间,是由原子钟报时的

    2022年10月12日
    0
  • C++二维vector初始化

    C++二维vector初始化初始化一个二维vector,行M,列N(行列数确定且含有初始值)://初始化一个二维的matrix,行M,列N,且值为0vector<vector<int>>matrix(M,vector<int>(N));//等价于下面的vector<vector<int>>matrix(M);for(inti=0;i<M;i++){matrix[i].resize(N);}//等价于下面的vector&l

    2022年9月17日
    0
  • navicat激活码 NAVC-PY2U【2022免费激活】

    (navicat激活码 NAVC-PY2U)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html…

    2022年4月2日
    413
  • substring字符串截取

    substring字符串截取字符串截取:1取字符串的前i个字符str=str.substring(0,i);2去掉字符串的前i个字符str=str.substring(i);3从右边开始取i个字符str=str.substring(str.length()-i);str=str.substring(str.length()-i,str.length());4从右边开始去掉i个字符str=str.substring(0,str.Length-i);5从开始截取到中间某个指定

    2022年5月23日
    64
  • Jenkins的三种启动方式「建议收藏」

    Jenkins的三种启动方式「建议收藏」前置条件Java8环境,参考:点击查看。(所有)docker环境,下载(第二种)ApacheTomcat环境,下载(第三种)一、war包启动下载Jenkins的war包打开终端命令行,找到war所在的路径运行java-jarjenkins.war浏览器打开http://localhost:8080,将会看到下图结果二、docker启动打开命令行终端或power…

    2022年5月18日
    540

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号