Matlab中的数据预处理-归一化(mapminmax)与标准化(mapstd)

Matlab中的数据预处理-归一化(mapminmax)与标准化(mapstd)最近遇到数据预处理的一些问题,本来很简单的东西,但是却搞的烦烦的,痛定思痛,决定自己实现一下。一、mapminmaxProcessmatricesbymappingrowminimumandmaximumvaluesto[-11]意思是将矩阵的每一行处理成[-1,1]区间,此时对于模式识别或者其他统计学来说,数据应该是每一列是一个样本,每一行是多个样本的同一维,即

大家好,又见面了,我是你们的朋友全栈君。

一、mapminmax

Process matrices by mapping row minimum and maximum values to [-1 1]

意思是将矩阵的每一行处理成[-1,1]区间,此时对于模式识别或者其他统计学来说,数据应该是每一列是一个样本,每一行是多个样本的同一维,即对于一个M*N的矩阵来说,样本的维度是M,样本数目是N,一共N列N个样本。

其主要调用形式有:

1. [Y,PS] = mapminmax(X,YMIN,YMAX)

2. [Y,PS] = mapminmax(X,FP)

3. Y = mapminmax(‘apply’,X,PS)

4. X = mapminmax(‘reverse’,Y,PS)

5. dx_dy = mapminmax(‘dx_dy’,X,Y,PS)

 

对于1和2的调用形式来说,X是预处理的数据,Ymin和Ymax是期望的每一行的最小值与最大值,FP是一个结构体成员主要是FP.ymin, FP.ymax.这个结构体就可以代替Ymin和Ymax,1和2的处理效果一样,只不过参数的带入形式不同。

代码:

x=[2,3,4,5,6;7,8,9,10,11];
mapminmax(x,0,1)
fp.ymin=0;
fp.ymax=1;
mapminmax(x,fp) 

而对于3式,在模式识别或者统计学里,PS是训练样本的数据的映射,即PS中包含了训练数据的最大值和最小值,这里的X是测试样本,对于测试样本来说,预处理应该和训练样本一致即最大值和最小值应该是训练集的最大值与最小值。假设y是测试样本,一共两个测试样本,则代码如下:

x=[2,3,4,5,6;7,8,9,10,11];
y=[2,3;4,5];
[xx,ps]=mapminmax(x,0,1);
mapminmax('apply',y,ps)

对于4式,是预处理之后的数据进行反转得到原始数据。

x=[2,3,4,5,6;7,8,9,10,11];
y=[2,3;4,5];
[xx,ps]=mapminmax(x,0,1);
yy=mapminmax('apply',y,ps);
mapminmax('reverse',yy,ps)

 

对于5式,根据给定的矩阵X、标准化矩阵Y及映射PS,获取逆向导数(reverse derivative)。如果给定的X和Y是m行n列的矩阵,那么其结果dx_dy是一个1×n结构体数组,其每个元素又是一个m×n的对角矩阵。这种用法不常用,这里不再举例。

二、mapminmax原理及其实现

mapminmax的数学公式为y = (ymax-ymin)*(x-xmin)/(xmax-xmin) + ymin。如果某行的数据全部相同,此时xmax=xmin,除数为0,则此时数据不变。

matlab实现为:

function [out]=myMapminmax(x,ymin,ymax)

out=(ymax-ymin).*(x-repmat(min(x,[],2),1,size(x,2)))./repmat((max(x,[],2)-min(x,[],2)),1,size(x,2))+ymin;
index=isnan(out);
out(index)=x(index);

end

注意上面的代码均假设数据x中样本是列向量。

三、mapstd 标准化

Process matrices by mapping each row’s means to 0 and deviations to 1:将矩阵的每一行映射为0均值1方差的数据。

主要调用形式有:

1.  [Y,PS] = mapstd(X,ymean,ystd)

2. [Y,PS] = mapstd(X,FP)

3. Y = mapstd(‘apply’,X,PS)

4. X = mapstd(‘reverse’,Y,PS)

5. dx_dy = mapstd(‘dx_dy’,X,Y,PS)

和mapminmax类似的,1和2式是对数据X进行标准化,其中ymean和ystd是期望得到数据的每一行的均值和方差,同样的,我们也可以用一个结构体包含 ymean 和ystd进行带入。

x=[2,3,4,5,6;7,8,9,10,11];
y=[2,3;4,5];
[xx,ps]=mapstd(x,0,1)
fp.ymean=0;
fp.ystd=1;
[xx,ps]=mapstd(x,fp)

3式是对测试数据进行预处理,利用训练数据中均值和方差进行处理,4式是将预处理之后的数据反转。

x=[2,3,4,5,6;7,8,9,10,11];
y=[2,3;4,5];
[xx,ps]=mapstd(x,0,1);
yy=mapstd('apply',y,ps);

mapstd('reverse',yy,ps)

 四、mapstd标准化的实现

公式为y = (x-xmean)*(ystd/xstd) + ymean。如果设置的ystd=0,或某行的数据全部相同(此时xstd =0)

 

function [out] = myMapstd(x,ymean,ystd)
out=(x-repmat(mean(x,2),1,size(x,2)))./repmat(std(x,0,2),1,size(x,2)).*ystd+ymean;
end

五、关于mean ,std等函数的说明

mean默认是对每一列求和,mean(x,2)是对每一行求和,std函数默认求的是标准差的无偏估计,有三种用法,s = std(X),s = std(X,flag),s = std(X,flag,dim)

其中flag是无偏估计的参数,flag=0是无偏估计,即默认 是无偏估计,flag=1是有偏估计,dim表示对第几维求方差,std(X,0,2)表示对X的每一行做无偏的标准差估计。

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/147780.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 简单的java图片存储方法

    简单的java图片存储方法Controller中//调用ReceivePIC.receivePIC(request,response);//封装的方法packagecom.jwwl.fsq.util;importjava.io.File;importjava.io.FileOutputStream;importjava.io.InputStream;importj

    2022年7月16日
    9
  • 少儿编程是学什么的(小学编程是学些什么东西)

    前言  我是一位从业十年的程序员,也是一位程序员爸爸。十年来,一直coding,从未停歇。既做过传统行业的软件,也做过移动互联网产品,甚至还曾在年少时,闯荡过幼教产品的创业大潮。作为程序员爸爸(或许应该叫工程师爸爸,换个称呼可以让孩子更崇拜),我时常在想我家的小朋友是否应该学习或者接触一下编程?那么说到编程,就必然需要先理解一下编程是什么?少儿编程又是什么?对于前者,我期望从实践者的视角作出我的…

    2022年4月15日
    75
  • 数据库系列之TiDB存储引擎TiKV实现机制

    数据库系列之TiDB存储引擎TiKV实现机制TiDB存储引擎TiKV是基于RocksDB存储引擎,通过Raft分布式算法保证数据一致性。本文详细介绍了TiKV存储引擎的实现机制和原理,加深对TiDB底层存储架构的理解。

    2022年9月23日
    1
  • R语言本地安装包教程

    R语言本地安装包教程第一步从R语言官网,下载package:‘Hmisc’,‘data.table’,‘UsingR’。以’data.table’为例,如图,其他两个方法相同。第二步下载好包到本地后,别忘了下载到哪了.然后在R软件选择-程序包-installpackagefromlocalfiles,选择下载好的’data.table’文件;然后选择-程序包-加载程序包-selecton…

    2022年6月27日
    185
  • LARS(最小角回归)

    LARS(最小角回归)优缺点LARS是一个适用于高维数据的回归算法。优点: 特别适合于特征维度n远高于样本数m的情况。 算法的最坏计算复杂度和最小二乘法类似,但是其计算速度几乎和前向选择算法一样 可以产生分段线性结果的完整路径,这在模型的交叉验证中极为有用 缺点:由于LARS的迭代方向是根据目标的残差而定,所以该算法对样本的噪声极为敏感。…

    2022年4月20日
    36
  • android autosize原理,(原创)AndroidAutoSize屏幕适配工具介绍[通俗易懂]

    android autosize原理,(原创)AndroidAutoSize屏幕适配工具介绍[通俗易懂]屏幕适配是我们在开发中经常会遇到的一个问题不同的机型有不同的屏幕尺寸和密度现在市场上已经有不少屏幕适配的解决方案今天就来介绍一个我自己觉得不错的AutoSize这是是一个Android端可以根据设备不同屏幕尺寸自动适配宽高的工具特点是使用起来非常简单。作者写的介绍它网站有:https://www.jianshu.com/p/4aa23d69d481代码位置:https://github.com/J…

    2022年6月6日
    380

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号