均值归一化详解_matlab数据归一化

均值归一化详解_matlab数据归一化数据归一化[TOC]将所有的数据映射到同一尺度。​首先,为什么需要数据归一化?举个简答的例子。样本间的距离时间所主导,这样在样本1以[1,200]输入到模型中去的时候,由于200可能会直接忽略到1的存在,因此我们需要将数据进行归一化。比如将天数转换为占比1年的比例,200/365=0.5479,100/365=0.2740。一、最值归一化最值归一化(Nor…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

数据归一化


[TOC]

将所有的数据映射到同一尺度。

​ 首先,为什么需要数据归一化?举个简答的例子。样本间的距离时间所主导,这样在样本1以[1, 200]输入到模型中去的时候,由于200可能会直接忽略到1的存在,因此我们需要将数据进行归一化。比如将天数转换为占比1年的比例,200/365=0.5479, 100/365=0.2740。

4921eb1a3891a3c880f063013001ce66.png

一、最值归一化

最值归一化(Normalization):把所有数据映射到0-1之间。适用于分布有明显边界的情况,受 outliner影响较大。

均值归一化详解_matlab数据归一化
import 

输出结果:

array([84, 18, 75, 75, 78, 30, 39, 33, 29, 30, 48, 77, 54, 30,  1, 32, 91,
       60, 73, 78, 89, 16, 71, 47, 87, 43, 24, 67, 70, 50, 58, 56, 69, 11,
       19, 97, 64, 53, 37, 18, 84, 77,  6,  3, 91, 48, 14,  6, 70, 36, 93,
       43, 78, 78, 73, 18, 96, 58, 77, 78, 29, 96, 75, 59, 58, 19, 65, 90,
       67, 73, 72,  1, 89, 70, 59, 96, 42, 73, 58,  8, 61, 65, 78, 86, 98,
       94, 52,  1, 59, 86, 44, 28, 87,  2, 91, 75, 19, 91, 46, 92])
(x-np.min(x)) / (np.max(x) - np.min(x))

输出结果:

array([0.8556701 , 0.17525773, 0.7628866 , 0.7628866 , 0.79381443,
       0.29896907, 0.39175258, 0.32989691, 0.28865979, 0.29896907,
       0.48453608, 0.78350515, 0.54639175, 0.29896907, 0.        ,
       0.31958763, 0.92783505, 0.60824742, 0.74226804, 0.79381443,
       0.90721649, 0.15463918, 0.72164948, 0.4742268 , 0.88659794,
       0.43298969, 0.2371134 , 0.68041237, 0.71134021, 0.50515464,
       0.58762887, 0.56701031, 0.70103093, 0.10309278, 0.18556701,
       0.98969072, 0.64948454, 0.53608247, 0.37113402, 0.17525773,
       0.8556701 , 0.78350515, 0.05154639, 0.02061856, 0.92783505,
       0.48453608, 0.13402062, 0.05154639, 0.71134021, 0.36082474,
       0.94845361, 0.43298969, 0.79381443, 0.79381443, 0.74226804,
       0.17525773, 0.97938144, 0.58762887, 0.78350515, 0.79381443,
       0.28865979, 0.97938144, 0.7628866 , 0.59793814, 0.58762887,
       0.18556701, 0.65979381, 0.91752577, 0.68041237, 0.74226804,
       0.73195876, 0.        , 0.90721649, 0.71134021, 0.59793814,
       0.97938144, 0.42268041, 0.74226804, 0.58762887, 0.07216495,
       0.6185567 , 0.65979381, 0.79381443, 0.87628866, 1.        ,
       0.95876289, 0.5257732 , 0.        , 0.59793814, 0.87628866,
       0.44329897, 0.27835052, 0.88659794, 0.01030928, 0.92783505,
       0.7628866 , 0.18556701, 0.92783505, 0.46391753, 0.93814433])
X = np.random.randint(0, 100, (50, 2))
X[:10, :]
X = np.array(X, dtype=float)
X[:, 0] = (X[:, 0] - np.min(X[:, 0])) / (np.max(X[:, 0]) - np.min(X[:, 0]))
X[:, 0]
X[:, 1] = (X[:, 1] - np.min(X[:, 1])) / (np.max(X[:, 1]) - np.min(X[:, 1]))
X[:, 1]
X[:10, :]
plt.scatter(X[:,0], X[:,1])
plt.show()
np.mean(X[:,0])
np.std(X[:, 0])
np.mean(X[:,1])
np.std(X[:, 1])

二、均值方差归一化

均值方差归一化(standardization):把所有数据归一化到均值为0方差为1的分布中。适用于数据分 布没有明显的边界,有可能存在极端的数据值。

均值归一化详解_matlab数据归一化
x2 

三、对训练集和测试集都进行归一化?

​ 我们得到数据集训练模型之前,首先会把数据集进行切分,分成训练集和测试集,如果需要对数据进行归一化,我们可以很容易地通过训练集得到其均值和方差,最大值最小值。但是测试集呢?如何对测试集进行数据归一化呢?

​ 正常情况下,测试数据集是模拟真实环境的,既然是真实环境,我们就很可能无法得到所有的测试集。因此当有一个新的数据需要进行预测时,我们需要使用训练集的均值方差,最大值最小值对测试集数据进行归一化。在scikit-learn中封装了Scaler保存训练数据集中的均值和方差等关键信息。

import 

​ 接下来测试一下数据归一化之后KNN的性能:

from 

输出结果:1.0

​ 如果训练集进行了归一化,测试集不做归一化试试?

knn_clf

输出结果:0.3333333333333333

四、使用面向对象自己编写均值方差归一化

from 

五、使用面向对象自己编写最值归一化

from 

其实,还有更多的数据归一化的方式,后续再进行完善!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/183229.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • ZigBee协议栈简介和流程「建议收藏」

    ZigBee协议栈简介和流程「建议收藏」ZigBee协议栈实际上就是ZigBee协议的API接口一般步骤为:1.组网:调用协议栈的组网函数、加入网络函数,实现网络的建立与节点的加入2.发送:发送节点调用协议栈的无线数据发送函数,实现无线数据发送3.接收:接收节点调用协议栈的无线数据接收函数,实现无线数据接收大致流程:main()→osal_init_system()→osalInitTasks()→SampleAp

    2022年5月8日
    86
  • IPtables中SNAT、DNAT和MASQUERADE的含义

    IPtables中SNAT、DNAT和MASQUERADE的含义IPtables中可以灵活的做各种网络地址转换(NAT),网络地址转换主要有两种:SNAT和DNAT。SNAT是sourcenetworkaddresstranslation的缩写,即源地址目标转换。比如,多个PC机使用ADSL路由器共享上网,每个PC机都配置了内网IP,PC机访问外部网络的时候,路由器将数据包的报头中的源地址替换成路由器的ip,当外部网络的服务器比如网站web服务器接到访

    2022年6月15日
    32
  • mysql的服务已经停止,无法启动的解决办法

    mysql的服务已经停止,无法启动的解决办法(1)如果之前装过mysql的,把mysql的server卸载掉,连带MySQLServer5.7\data文件一起清干净(2)重新装好后,输入netstartmysql还是无法启动服务,这个时候,输入以下指令     mysqld–remove删除mysql服务     mysqld–install安装服务     mysqld

    2022年7月27日
    59
  • leetcode394字符串解码(回溯|栈)「建议收藏」

    leetcode394字符串解码(回溯|栈)「建议收藏」给定一个经过编码的字符串,返回它解码后的字符串。编码规则为: k[encoded_string],表示其中方括号内部的 encoded_string 正好重复 k 次。注意 k 保证为正整数。你可以认为输入字符串总是有效的;输入字符串中没有额外的空格,且输入的方括号总是符合格式要求的。此外,你可以认为原始数据不包含数字,所有的数字只表示重复的次数 k ,例如不会出现像 3a 或 2[4] 的输入。示例 1:输入:s = “3[a]2[bc]”输出:”aaabcbc”示例 2:输入:s =

    2022年8月8日
    6
  • Myeclipse2017SVN插件安装[通俗易懂]

    Myeclipse2017SVN插件安装[通俗易懂]Myeclipse2017SVN插件安装链接已改为本人资源链接,自取.如果对你有帮助请给评论一下点个赞,十分感谢!

    2022年7月21日
    12
  • python对字符串中指定字符进行替换[通俗易懂]

    python对字符串中指定字符进行替换[通俗易懂](1)替换指定的所有字符:string.replace(‘a’,‘b’)表示将字符串string中所有字符为’a’的替换为’b’。例子string=”abcabcabc”string=string.replace(‘a’,’b’)print(string)输出bbcbbcbbc(2)替换指定位置i的字符为字符s:列表化字符串再以字符串形式输出例子i,s…

    2022年6月7日
    51

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号