数据预处理无量纲化处理_统计数据的预处理

数据预处理无量纲化处理_统计数据的预处理1.无量纲化定义无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析。2.无量纲化方法无量纲化方法有很多,但

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

1.无量纲化定义

无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析。

2.无量纲化方法

无量纲化方法有很多,但是从几何角度来说可以分为:直线型、折线型、曲线形无量纲化方法。

(1)直线型无量纲化方法

直线型无量纲化方法是指指标原始值与无量纲化后的指标值之间呈现线性关系,常用的线性量化方法有阈值法、标准化法与比重法。

①阈值法是我们最熟悉也最常用的一种无量纲化方法,阈值也称临界值,是指衡量事物发展变化的一些特殊指标值,如极大值、极小值等,而阈值法就是通过实际值与阈值对比得到无量纲化指标值的方法。主要公式以及特点如下图中所示。

数据预处理无量纲化处理_统计数据的预处理

 

值得注意的一点,阈值参数的选取确定却会直接影响分析的结果,这里需考虑实际情况加上已有经验进行探索,逐步优化,直到寻找最合适的阈值(最合适就是结果可以达到让自己满意的程度)。

②标准化方法就是指标原始值减去该指标的均值然后比上其标准差。

无论指标实际值是多少,最终将分布在零的两侧,与阈值法相比,标准化方法利用样本更多的信息,且标准化后的数据取值范围将不在[0,1]之间。

③比重法是将指标实际值转化为他在指标值总和中所占的比重。

(2)折线型无量纲化方法

折线型无量纲化适用于被评价事物呈现阶段性变化,即指标值在不同阶段变化对事物总体水平影响是不一样的。

虽然折线型无量纲化方法比直线型无量纲化方法更符合实际情况,但是要想确定指标值的转折点不是一件容易的事情,需要对数据有足够的了解和掌握。

(3)曲线形无量纲化方法

 有些事物发展的阶段性变化并不是很明显,而前、中、后期的发展情况又各不相同,就是说指标值的变化是循序渐进的,并不是突变的,在这种情况下,曲线形无量纲化方法也更为合适,常用的曲线形无量纲化方法如下图所示:

数据预处理无量纲化处理_统计数据的预处理

(4)模糊无量纲化方法

综合评价中的评价指标可以分为正向指标(即指标值越大越好)、逆指标(即指标值越小越好)和适度指标(即指标值落在某个区间最好,大了、小了都不好),指标彼此之间“好”与“坏”并没有一个标准,在很大程度上具有一定的模糊性,这时候可以选择此方法对指标进行无量纲化处理,有兴趣自行搜索学习。

 

本文参考: https://wenku.baidu.com/view/34187066f01dc281e53af0fc.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/167172.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • LaTeX技巧218:LaTeX如何正确输入引号:双引号“”单引号‘’

    LaTeX技巧218:LaTeX如何正确输入引号:双引号“”单引号‘’最近看一些latex用户的文章,输入的双引号和单引号都是用输入法中的中文模式键入,并不是LaTeX的正确输入方式。正确的输入方法如下:使用键盘的Tab键上侧的连续键入两个“然后输入键盘的两个单引号”。单引号输入类似。示例如下:演示代码:   \documentclass{article}   \setlength\textwidth{150pt}   \be

    2022年6月25日
    43
  • datagrip 2021激活码 mac【2021免费激活】「建议收藏」

    (datagrip 2021激活码 mac)最近有小伙伴私信我,问我这边有没有免费的intellijIdea的激活码,然后我将全栈君台教程分享给他了。激活成功之后他一直表示感谢,哈哈~IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html…

    2022年3月20日
    398
  • 改变随机数中一些值的概率

    改变随机数中一些值的概率

    2021年11月15日
    37
  • 关于用户路径分析模型_spark用户行为路径

    关于用户路径分析模型_spark用户行为路径在网页或者营销渠道中,用户行为模型有比较多,基于渠道的,笔者觉得有:渠道类型渠道重要性渠道跳转与流失单渠道,多节点路径分析,漏斗功能多渠道归因分析这里多渠道指的是,单渠道多节点的场景比较好理解,就是进入某个web\小程序,在不同页面之间进行跳转,多渠道这里比较多的就是,同一用户在不同的较大的场景下的流转,比如在小红书种草->微信好友推荐->淘宝上买了。归因分析是通过一定的逻辑方法,计算每个渠道、或者触点对最终结果贡献程度的方法。有一套合理

    2022年8月24日
    12
  • OpenCV-利用其它widthStep方法把interest——img的所有像素值增加200

    OpenCV-利用其它widthStep方法把interest——img的所有像素值增加2001:代码如下:#include”stdafx.h”#include”highgui.h”#include”cv.h”#include”iostream”usingnamespacestd;intmain(){IplImage*interest_img=cvLoadImage(“C:\\horse.jpg”);cvNamedWindow(“inte

    2022年5月26日
    34
  • 双线性插值(超级易懂的)「建议收藏」

    双线性插值(超级易懂的)「建议收藏」双线性插值简介在两个方向分别进行一次线性插值(首先在一个方向上使用线性插值,然后再在另一个方向上使用线性插值执行双线性插值。尽管每个步骤在采样值和位置上都是线性的,但是插值总体上不是线性的,而是在采样位置上是二次的。)作用一般用于重新采样图像和纹理。计算四个周围纹理像素的属性(颜色,透明度等)的加权平均值,并将其应用于屏幕像素。(简单来说,我要求一个已知坐标的像素值,先去找他四个周围已…

    2022年4月28日
    207

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号