数据归一化小结

数据归一化小结在各种模型训练,特征选择相关的算法中,大量涉及到数据归一化的问题。比如最常见的情况是计算距离,如果不同维度之间的取值范围不一样,比如feature1的取值范围是[100,200],feature2的取值范围是[1,2],如果数据不做归一化处理,会造成feature1在距离计算中占压倒性的优势,feature2完全体现不出来作用。而数据做归一化处理以后,会让各个不同特征对距离计算的贡献大致相同,从而避

大家好,又见面了,我是你们的朋友全栈君。

项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star,留言,一起学习进步

在各种模型训练,特征选择相关的算法中,大量涉及到数据归一化的问题。比如最常见的情况是计算距离,如果不同维度之间的取值范围不一样,比如feature1的取值范围是[100,200],feature2的取值范围是[1,2],如果数据不做归一化处理,会造成feature1在距离计算中占压倒性的优势,feature2完全体现不出来作用。而数据做归一化处理以后,会让各个不同特征对距离计算的贡献大致相同,从而避免人为的数据倾斜。

常见的数据归一化方式如下:

1.线性归一化

如果要把输入数据转换到[0,1]的范围,可以用如下公式进行计算:
X n o r m = X − X m i n X m a x − X m i n X_{norm} = \frac{X – X_{min}}{X_{max} – X_{min}} Xnorm=XmaxXminXXmin
按以上方式进行归一化以后,输入数据转换到[0,1]的范围。
有时候我们希望将输入转换到[-1,1]的范围,可以使用以下的公式
X n o r m = 2 ∗ ( X − X m i n ) X m a x − X m i n − 1 X_{norm} = \frac{2*(X – X_{min})}{X_{max} – X_{min}} – 1 Xnorm=XmaxXmin2(XXmin)1

以上两种方式,都是针对原始数据做等比例的缩放。其中 X n o r m X_{norm} Xnorm 是归一化以后的数据, X X X是 原始数据大小, X m a x X_{max} Xmax X m i n X_{min} Xmin 分别是原始数据的最大值与最小值。公式简单明了,很容易懂。
除了将数据缩放到[0,1]或[-1,1]的范围,实际中还经常有其他缩放需求。例如在进行图像处理的过程中,获得的灰度图像的灰度值在[0,255]之间。常用的处理方式之一就是将像素值除以255,就缩放到了[0,1]之间。而在RGB图像转灰度图像的过程中,经常就将灰度值限定在[0,255]之间。

2.0均值归一化

0均值归一化将输入的原始数据集归一化为均值为0,方差为1的数据集。具体的归一化公式如下:
z = x − μ σ z = \frac{x – \mu}{\sigma} z=σxμ
其中, μ \mu μ, σ \sigma σ是原始 数据集的均值与标准差。这种方式要求原始数据集的分布近似为正态(高斯)分布。否则归一化的效果很差。

http://ufldl.stanford.edu/wiki/index.php/数据预处理 中关于0均值归一化的描述:
特征标准化指的是(独立地)使得数据的每一个维度具有零均值和单位方差。这是归一化中最常见的方法并被广泛地使用(例如,在使用支持向量机(SVM)时,特征标准化常被建议用作预处理的一部分)。在实际应用中,特征标准化的具体做法是:首先计算每一个维度上数据的均值(使用全体数据计算),之后在每一个维度上都减去该均值。下一步便是在数据的每一维度上除以该维度上数据的标准差。
例子:处理音频数据时,常用 Mel 倒频系数 MFCCs 来表征数据。然而MFCC特征的第一个分量(表示直流分量)数值太大,常常会掩盖其他分量。这种情况下,为了平衡各个分量的影响,通常对特征的每个分量独立地使用标准化处理。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/152322.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月23日 下午2:36
下一篇 2022年6月23日 下午2:36


相关推荐

  • 陕西驾驶员考试

    陕西驾驶员考试

    2021年7月27日
    71
  • python升序和降序排序_sql升序和降序(orderby升序和降序排列显示)

    python升序和降序排序_sql升序和降序(orderby升序和降序排列显示)sql 升序和降序排列作者 王伟同学任编 郭芮 Pandas 是用于数据处理和数据分析的非常方便的类库 这也是每个 Pythoner 进行数据分析的必备工具 但是不可否认的是 并不是所有的程序员都会使用 Python 也不是所有的 Python 用户都会使用 Pandas 但是好消息是 有了 pandassql 您可以使用 SQL 来操纵 DataFrame 导入相关库将 numpy 作为 np 导入 pandas 作为 pdfro

    2026年3月19日
    2
  • mysql8 2058_SQLyog连接MySQL8.0报2058错误的解决方案[通俗易懂]

    mysql8 2058_SQLyog连接MySQL8.0报2058错误的解决方案[通俗易懂]引言用SQLyog连接MySQL8.0(社区版:mysql-installer-community-8.0.15.0.msi),出现错误2058(Plugincaching_sha2_passwordcouldnotbeloaded:xxxx),通过查询资料了解了该错误的原因并在本文中提出了该问题的方案。原因该错误提示如下图所示:具体原因:新的MySQL8.0安装,在初始化数据目录时,…

    2022年10月2日
    4
  • Stata 15详细安装步骤

    Stata 15详细安装步骤安装步骤 安装前先关闭杀毒软件和 360 卫士 注意安装路径不能有中文 安装包路径也不要有中文 试装系统 win1064bit1 解压安装包 2 Stata15 分为 MP SE 和 IC 三个版本 不同的版本功能有些许差异 安装包中只有 MP 试用序列号和 SE 永久序列号 这两个版本安装方法有些许差异 本教程以 SE 安装为例 MP 的安装需要更改系统时间 MP 版本如最后安装完成出现 badserialnu

    2026年3月26日
    2
  • Pycharm 更改国内镜像[通俗易懂]

    Pycharm 更改国内镜像[通俗易懂]打开File-setting-Project:项目名称-projectInterpreter-点击右边加号出现availablepackages-下边Managerespositories-将默认的更换成清华大学镜像https://pypi.tuna.tsinghua.edu.cn/simple/然后关闭即可

    2022年8月29日
    6
  • pytest重试_pytest不是内部或外部命令

    pytest重试_pytest不是内部或外部命令安装:pip3installpytest-rerunfailures重新运行所有失败用例要重新运行所有测试失败的用例,请使用–reruns命令行选项,并指定要运行测试的最大次数:$py

    2022年7月31日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号