为什么机器学习中常常假设数据是独立同分布的?

为什么机器学习中常常假设数据是独立同分布的?

独立、相关的关系:

独立,两个事件的发生没有任何关系

相关,一般指线性相关,不相关指不线性相关,但或许满足非线性相关

 

同分布:

意味着X1和X2具有相同的分布形状和相同的分布参数,对离散随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。

独立同分布(iid)

在不少问题中要求样本(数据)采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集,使用同分布假设能够使得这个做法解释得通。

(机器学习就是利用当前获取到的信息(或数据)进行训练学习,用以对未来的数据进行预测、模拟。因此需要我们使用的历史数据具有总体的代表性。)

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119465.html原文链接:https://javaforall.net

(0)
上一篇 2021年11月19日 下午6:00
下一篇 2021年11月19日 下午6:00


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号