描述性统计分析

描述性统计分析数据分析之前 需先明确变量的度量类型 变量的度量类型主要分三种 名义 等级 连续 1 名义变量 如饮料类型 1 1 描述名义变量的分布 频数表 柱形图 2 等级变量 如饮料包装大小 nbsp 3 连续变量 饮料的体积 比例数据 饮料的温度 间隔数据 3 1 描述连续变量的分布 直方图 nbsp nbsp nbsp nbsp nbsp nbsp nbsp 3 1 1 需要对变量进行分布探索 并了解以下情况 nbsp nbsp nbsp

数据分析之前,需先明确变量的度量类型。变量的度量类型主要分三种:名义、等级、连续;

1、名义变量:如饮料类型;

描述性统计分析

1.1 描述名义变量的分布:频数表、柱形图

描述性统计分析描述性统计分析

2、等级变量:如饮料包装大小;

描述性统计分析

 

3、连续变量:饮料的体积(比例数据)、饮料的温度(间隔数据)

描述性统计分析

3.1 描述连续变量的分布 :直方图

        3.1.1 需要对变量进行分布探索,并了解以下情况:

    描述性统计分析

        直方图:常用于了解数据的分布形状;

                      一般情况下,横轴为连续变量的分段进行等宽离散后的值,纵轴为频次;

        描述连续变量的分布形态:偏度与峰度

        3.1.2 常见连续分布

            描述性统计分析

            描述性统计分析

            这种类型的分布在取对数之后服从正态分布;因此,在精确度要求并不严格的统计分析中,经常在对偏态分布进行对数转换。

3.2 连续数据的位置

    3.2.1 中心的度量:均值:所有数值加总后除以数量

                                中位数:按大小排序后中间那个取值(50%分位数)

                                众数:出现频率最多的取值

描述性统计分析  描述性统计分析

              盒须图能够提供某变量分布以及异常的信息,其通过分位数来概括某变量的分布信息从而比较不同变量的分布。

              盒须图的基本元素:

              IQR:变量上下四分位数之间的数据,这个范围代表了数据中间50%的数据。

              1.5IQR:上下1.5IQR表示上下1.5倍IQR范围的数据,其能够提供中位数左右95%的置信区间的数据。

                             可以直观的从盒须图中看出超出95%置信区间范围的数据,即异常值。

              不同变量的盒须图比较时,可通过中位数位置来比较两变量数据的中位数差异状况。

             众数、中位数与平均数的关系:

        描述性统计分析

    3.2.2 数据的离散程度:级差、四分位差、平均绝对偏差、方差和标准差

            级差(range)= 最大值 – 最小值

            四分位差(IQR)= 上分位数 – 下分位数

            描述性统计分析

4、描述统计方法

       4.1 分类变量

        4.1.1 单因子频数,三种描述方法

        频次表

data.district.value_counts()

        垂直条形图

data.district.value_counts().plot(kind='bar')

        饼图

data.district.value_counts().plot(kind='pie')

      描述性统计分析     描述性统计分析    描述性统计分析

          4.1.2 两分类变量:

        表分析

pd.crosstab(data.district,data.school)

        直方图

pd.crosstab(data.district,data.school).plot(kind='bar')

       描述性统计分析    描述性统计分析

         4.2 连续变量

        4.2.1单连续变量

        连续变量统计量

data.price.agg(['mean','median','sum','std','skew'])

        直方图

data.price.hist(bins = 20)

       描述性统计分析    描述性统计分析

         4.2.2 一分类变量 + 一连续变量

        分类汇总

data.price.groupby(data.district).sum()

        盒须图(box-plot):常用于多组数据分布的比较

data.boxplot(x='district',y='price',data=data)

        描述性统计分析   描述性统计分析

        4.2.3 两分类变量 + 一连续变量

        汇总表

data.pivot_table(values='price',index='district',columns='school',aggfunc=np.mean)

        描述性统计分析      描述性统计分析

        4.2.3 两连续变量

        散点图

data.plot.scatter(x='AREA',y='price')

         描述性统计分析    

            4.2.4 时间与两个连续变量

     描述性统计分析

        4.3 关联性不同的图表

        描述性统计分析

        4.4 图像展示步骤

            1、明确要表达的信息

            2、确定相对关系

            3、选择图表形式

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/209707.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 上午8:36
下一篇 2026年3月19日 上午8:36


相关推荐

  • python中保留小数位数_python取小数部分

    python中保留小数位数_python取小数部分一.format方法a=1.23455print(format(a,’.2f’))print(format(a,’.4f’))符合四舍五入print(‘{:.2f}{:.3f}’.format(1.23455,1.23455))使用{}作为占位符,可以同时操作多个数字二.’%2f’%f方法a=1.23455print(‘%.4f’%a)符合四舍五入三.round()方法a=1.23455print(round(a,2))print(round(a,4))

    2022年8月12日
    7
  • python中astype 存在空值_python-DataFrame.astype()错误参数

    python中astype 存在空值_python-DataFrame.astype()错误参数使用列的字典时,astype引发ValueError.我试图将大DF中的稀疏列的类型转换(从float到int).我的问题是NaN值.即使将errors参数设置为’ignore’,使用列的字典时也不会忽略它们.这是一个玩具示例:t=pd.DataFrame([[1.01,2],[3.01,10],[np.NaN,20]])t.astype({0:int},errors=’ignore’)V…

    2022年5月25日
    80
  • 用proxy实现一个更优雅的vue

    用proxy实现一个更优雅的vue

    2021年6月7日
    95
  • LLDP协议、STP协议 笔记

    LLDP协议、STP协议 笔记参考:数据链路层学习之LLDP生成树协议LLDP协议、STP协议笔记LLDP提出背景:随着网络技术的发展,接入网络的设备的种类越来越多,配置越来越复杂,来自不同设备厂商的设备也往往会增加自己特有的功能,这就导致在一个网络中往往会有很多具有不同特性的、来自不同厂商的设备,为了方便对这样的网络进行管理,就需要使得不同厂商的设备能够在网络中相互发现并交互各自的系统及配置信息。L…

    2022年6月2日
    33
  • Set集合详解

    Set集合详解定义:一个set集合不能包含重复的元素,set实现Collection并增加了hashCode和equals方法。set不允许存储值相同的元素,原因为在取值的时候set依靠的是元素本身取值。由于set提供了hashCode和Equals方法,所以set支持比较。set主要实现HashSet,TreeSet,LinkedHashSet(后面会分别以不同的文章介绍着三种实现)set允许存储一个null…

    2022年6月3日
    147
  • 2021pycharm激活码(JetBrains全家桶)「建议收藏」

    (2021pycharm激活码)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~M…

    2022年3月21日
    276

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号