数据分析中常见问题「建议收藏」

数据分析中常见问题「建议收藏」1. 如何检验数据是否服从正态分布?一、图示法(1)P-P图。以样本的累积频率作为横坐标,以安装正太分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点,如果服从正太分布,则样本点围绕第一象限的对角线分布。(2)Q-Q图。以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对…

大家好,又见面了,我是你们的朋友全栈君。

1. 如何检验数据是否服从正态分布?

一、图示法

(1)P-P图。以样本的累积频率作为横坐标,以安装正太分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点,如果服从正太分布,则样本点围绕第一象限的对角线分布。

(2)Q-Q图。以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

(3)直方图。判断是否以钟形分布,同时可以选择输出正态性曲线

(4)箱式图。观测离群值和中位数

(5)茎叶图。类似于直方图,但实质不同。

二、计算法

(1)偏度系数和峰度系数

偏度计算公式:数据分析中常见问题「建议收藏」

峰度计算公式:数据分析中常见问题「建议收藏」

其中,g_{_{1}}表示偏度,g_{_{2}}表示峰度,通过计算g_{_{1}},g_{_{2}}及其标准误差\sigma_{g1}\sigma_{g2},再做U计算。当两种检验同时得出U<U_{0.05}=1.96,即p>0.05时,才可以认为该组服从正太分布。

2. 中心极限定理

中心极限定理,是指概率论中讨论随机变量序列部分和分布渐进于正太分布的一类定理。是指样本平均值约等于总体平均值。

随着n的增大,n个数的样本均值会趋近于正太分布,并且这个正太分布以u为均值,\sigma^{2}/n为方差。

相关结论:

结论1:用样本估计整体;

结论2:样本的平均值呈正态分布;

结论3:在无法知道总体的情况下,可以用样本估计整体。(除以n-1)

3. 过拟合问题

过拟合是指为了得到一致假设而使假设变得过度严格。

常见产生原因:

(1)建模样本选取有误,包括样本数量太少,选择方法错误,样本标签错误等,导致选取的样本的数据不足以代表预定的分类规则。

(2)样本噪音干扰过大,从而扰乱分类规则。

(3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立

(4)参数太多,使得模型复杂度过高。

(5)对于决策树模型,如果我们对于其生长没有合理的限制,其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event),使其虽然可以完美匹配(拟合)训练数据,但是无法适应其他数据集。

(6)对于神经网络模型:a)对样本数据可能存在分类决策面不唯一,随着学习的进行,,BP算法使权值可能收敛过于复杂的决策面;b)权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征。

常见解决办法:

(1)增加样本数据;

(2)选取合适的停止训练标准,使对机器的训练在合适的程度;

(3)保留验证数据集,对训练成果进行验证;

(4)获取额外数据进行交叉验证;

(5)正则化,即在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有L1正则与L2正则等。

(6)进行特征选择、特征降维

(7)控制模型的复杂度。如进行剪枝、控制树深度;增大分割平面间隔;

 

未完,,待继补充。。。

 

参考:https://wenku.baidu.com/view/29b3f4021fb91a37f111f18583d049649a660e31.html

https://blog.csdn.net/liubo187/article/details/77092729

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/136463.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • php替换字符串中,PHP 替换字符串中的一些字符方法介绍

    php替换字符串中,PHP 替换字符串中的一些字符方法介绍在php中替换字符串我们都会使用到str_replace函数了,此函数还可以使用正则,下面小编来给大家介绍一下替换字符串中的一些字符或替换第一次出现的字符实例。现在有个需求:字符串A与字符串B,字符串B中包含字符串A,利用字符串A将字符串B中的A替换成其他字符串或删除。利用PHP函数,str_ireplace()与str_replace()可以做到。一、str_ireplace(find,r…

    2022年5月10日
    39
  • Gamma校正原理及python实现

    Gamma校正原理及python实现Gamma校正原理:  假设图像中有一个像素,值是200,那么对这个像素进行校正必须执行如下步骤:  1.归一化:将像素值转换为0~1之间的实数。算法如下:(i+0.5)/256这里包含1个除法和1个加法操作。对于像素A而言,其对应的归一化值为0.783203。  2.预补偿:根据公式,求出像素归一化后的数…

    2022年9月22日
    0
  • 磁盘分区类型和分区表的区别[通俗易懂]

    磁盘分区类型和分区表的区别[通俗易懂]任务1罗列磁盘分区的类型并做比较性介绍分类:FAT16、FAT32、NTFS、EXT2、EXT3、EXT4FAT16:磁盘分区最大只能到2GB、使用簇的大小不恰当、FAT16使用了16位的空间来表示每个扇区文件名长度有限制FAT32:相比FAT16会拥有更多的簇,更大空间容量上限为16TB根目录区(ROOT区)不再是固定区域、固定大小速度和FAT16一样快,对大磁盘利用率比FAT16好文件名长度有限制NTFS:备3个功能:错误预警功能、磁盘自我修复功能和日志功能安全性,

    2022年8月11日
    12
  • 计算机用户名,账户名更改

    计算机用户名,账户名更改计算机用户名,winr按键同时,输入netplwiz.进入用户账户界面(高级),双击即可更改。账户名更改,通过控制面板更改。

    2022年10月14日
    0
  • leetcode 回溯算法_wps怎么在生成目录的页加括号

    leetcode 回溯算法_wps怎么在生成目录的页加括号原题链接数字 n 代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且 有效的 括号组合。示例 1:输入:n = 3输出:[“((()))”,”(()())”,”(())()”,”()(())”,”()()()”]示例 2:输入:n = 1输出:[“()”] 提示:1 <= n <= 8题解回溯class Solution {public: vector<string>res; string t = “”; voi

    2022年8月9日
    2
  • 微信推送消息遇到的坑 – 返回error code 40008,并且发送不成功[通俗易懂]

    微信推送消息遇到的坑 – 返回error code 40008,并且发送不成功[通俗易懂]api文档就是这里啦。https://work.weixin.qq.com/api/doc#90000/90135/90236/%E6%96%87%E6%9C%AC%E6%B6%88%E6%81%AF我感觉腾讯并没有把这个errorcode做得很细,反之,非常笼统,让你看到这个err不知所措不晓得到底啥问题。我这边要用微信接收系统发出来的alert,比如哪个服务器cpu负荷…

    2022年6月10日
    169

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号