数据的描述性统计

数据的描述性统计数据的描述性统计标签 空格分隔 对数据的描述性统计主要是指对结构化数据的描述分析 可从三个维度进行分析 数据的集中趋势 数据的离散程度和数据的分布形态 描述数据集中趋势的指标有 众数 中位数 平均数 包含算数平均数 加权平均数 集合平均数 和分位数 描述数据的离散程度的指标有 方差 标准差 极差和平均差 数值型数据 四分位差 顺序数据 异众比率 分类数据 离散系数 相对离散程度

数据的描述性统计

对数据的描述性统计主要是指对结构化数据的描述分析,可从三个维度进行分析:数据的集中趋势、数据的离散程度和数据的分布形态。

描述数据集中趋势的指标有:众数、中位数、平均数(包含算数平均数、加权平均数、集合平均数)和分位数。

描述数据的离散程度的指标有:方差、标准差、极差和平均差(数值型数据);四分位差(顺序数据);异众比率(分类数据);离散系数 (相对离散程度)。

描述数据分布形态的指标:偏态系数和峰态系数。

1.数据的集中趋势描述指标
算术平均数
简单算数平均数:即所有数值相加除以数值个数,
公式:
x ˉ = x 1 + x 2 + ⋯ + x n n \bar{x}=\frac{x_1+x_2+\cdots+x_n}{n} xˉ=nx1+x2++xn








算术平均数的优点:受样本数据波动的影响较小,具有一定的稳定性;缺点是易受极大值或极小值的影响。

用python3实现的代码:
对于Numpy包里的多维数组ndarray,利用data.mean()或者np.mean(data)

#创建一个服从正态分布的多维数组 import numpy as np data=np.random.randn(5,4) #求平均值 data.mean() np.mean(data) #求加权算数平均数 import numpy as np a=[6,7,8] np.average(a,weights=[1,2,3]) 
import pandas as pd import numpy as np df=np.DataFrame(np.random.randn(4,3),index=['a','b','c','d'],columns=['one','two','three']) df.describe() df.mean() df.mean(axis=0)#跨行即每列的平均值, 与df.mean()结果一致 df.mean(axis=1)#跨列即每行的平均值 

几何平均数
当数据之间的关系是乘除关系时,用几何平均数来表示数据集合的集中趋势。
公式:
x j ˉ = x 1 x 2 ⋯ x n n \bar{x_j}=\sqrt[n]{x_1x_2\cdots x_n} xjˉ=nx1x2xn






众数
即数据集合中出现次数最多的数值(众数可以是0/1或多个)
用python3求众数:利用scipy下的stats模块




from scipy import stats a=[0,1,1,2,2,2,3,4,5,6] stata.mode(a)[0][0] 

中位数
将集合中所有的数值按照从低到高进行排序,处于最中间的一个数就是中位数,若中间有两个数则中位数为这两个数的算术平均值。
中位数跟算术平均数相比较的话,中位数不受极端值的影响。
python3中可用describe()来查看第二四分位数即中位数。






分位数
四分位数,即把所有数值按由小到大排序分成四等份,处于三个分割点位置的得分就是四分位数。
也可以利用describe()来查看三个四分位数。




2.数据的离散程度描述指标
用离散程度指标来衡量数据集合的波动情况

数值型数据:方差、标准差、极差、平均差

极差
数据集合中最大值与最小值的差,亦成为全距。极差易受极值的影响,对离散程度的描述不精确。

平均偏差
描述了所有数值与平均值的平均偏差距离
公式:
R a = ∑ i = 1 n ∣ x i − x ˉ ∣ n R_a=\frac{\sum_{i=1}^n\mid{x_i-\bar{x}\mid}}{n} Ra=ni=1nxixˉ






方差和标准差
一般情况下会用样本方差来估计总体方差
总体方差为:
σ 2 = ∑ i = 1 N ( x i − μ ) 2 N \sigma^2=\frac{\sum_{i=1}^N(x_i-\mu)^2}{N} σ2=Ni=1N(xiμ)2






标准差就是方差的正值平方根;方差/标准差越大,数据的离中趋势越大。

离散系数(变异系数)
离散系数是一种相对离散程度的衡量,当两个数据集合的算数平均值不同,但方差和标准差相等时,可以用离散系数来衡量数据集合的离散程度。
样本的离散系数:
V s = s x ˉ V_s=\frac{s}{\bar{x}} Vs=xˉs






顺序数据:四分位差
第三四分位数与第一四分位数的差值,第二四分位数就是中位数,(要对数据按照从低到高进行排序,排在四分之一位置的数值就是第一四分位数,排在四分之二位置即第二四分位数,排在四分之三位置就是第三四分位数),这个差值区间包含了整个数据集合50%的数据。

分类数据:异众比率
指的是总体中非众数次数与总体全部次数之比,也即非众数组的频数占总频数的比例。主要用于测度分类数据的离散程度。

3.数据分布形态
偏态系数
偏态系数用来判断数据集合的分布形态是否对称,当偏态系数等于0时,对称分布;偏态系数小于0时,左偏分布,长尾拖在左边;偏态系数大于0时,右偏分布,长尾拖在右边。




峰态系数
用来描述单峰分布曲线的峰度高低和陡峭程度的指标,峰态系数和单峰分布形态之间的关系为:
当峰态系数等于3时,代表分布曲线是偏平程度适中的常峰态(正态分布的峰形就是常峰态);
当峰态系数小于3时,分布曲线是低峰态;
当峰态系数大于3时,分布曲线是尖峰态。








版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/218002.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 上午8:17
下一篇 2026年3月18日 上午8:17


相关推荐

  • 通过PyCharm 把Python 程序打包为exe

    通过PyCharm 把Python 程序打包为exe很多人应该都是使用 PyCharm 编写 python 程序的吧 虽然都是用 pyinstaller 来打包 python 程序为 exe 但是由于 PyCharm 用了虚拟环境 venv 所有一些参数是有区别的 网上查询了很久没有查到这方面的信息 下面这些都是我自己探索出来的 lin49940 步骤一 点击进入 PyCharm 的输入终端 Terminal 步骤二 输入下面的语句 mypython py 替换为你自己的程序名称 pyinstaller c Fmypython py pE d

    2026年3月27日
    1
  • linux libaio介绍

    linux libaio介绍Linux 的 I O 机制经历了一下几个阶段的演进 1 同步阻塞 I O 用户进程进行 I O 操作 一直阻塞到 I O 操作完成为止 2 同步非阻塞 I O 用户程序可以通过设置文件描述符的属性 O NONBLOCK I O 操作可以立即返回 但是并不保证 I O 操作成功 3 异步事件阻塞 I O 用户进程可以对 I O 事件进行阻塞 但是 I O 操作并不阻塞 通过 select poll epoll 等函数调用来达到此目的 4 异步时间非阻塞 I O 也叫做异步 I O AIO 用户程序可以通过向内核发出 I O 请求

    2026年3月17日
    2
  • IDEA插件之颜值篇Material Theme UI

    俗话说,工欲善其事必先利其器。工具的颜值也很重要,好的主题让人赏心悦目,有码代码的欲望。今天推荐一个IDEA颜值类插件:MaterialThemeUI大致效果安装方式IDEA插件官网地址:https://plugins.jetbrains.com/plugin/8006-material-theme-uiGITHUB地址:https://github.com/C…

    2022年4月6日
    1.3K
  • 系统发育树原理_环形系统发育树怎么理解

    系统发育树原理_环形系统发育树怎么理解文章转载于 Original 2017-07-08 Berlin生信百科达尔文在19世纪中叶创立了科学的生物进化学说——达尔文进化论。以自然选择为主要核心,他第一次对

    2022年8月2日
    8
  • 文心X1 Turbo获信通院“4+级”最高评级

    文心X1 Turbo获信通院“4+级”最高评级

    2026年3月12日
    2
  • 基础才是重中之重~你是否真正在用MVC路由功能~再续

    基础才是重中之重~你是否真正在用MVC路由功能~再续

    2022年3月12日
    42

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号