浅谈大数据建模「建议收藏」

浅谈大数据建模「建议收藏」前言:建模的过程和方法,不断地被开发和完善,你可能会说不同的数据类型,不同的业务场景,不同的需求,都会有不同的建模方法,我很赞同。但是我想说,不管你的数据是什么,要在大数据中建立自己的数据模型这其中的套路还是有规律可寻的。一.数据准备二.执行探索性数据分析三.建立初始模型四.模型迭代构建数据准备:在大数据计算中从来不嫌数据太多,相反的数据越多越好。只要数

大家好,又见面了,我是你们的朋友全栈君。

前言:建模的过程和方法,不断地被开发和完善,你可能会说不同的数据类型,不同的业务场景,不同的需求,都会有不同的建模方法,我很赞同。但是我想说,不管你的数据是什么,要在大数据中建立自己的数据模型这其中的套路还是有规律可寻的。


一.数据准备

二.执行探索性数据分析

三.建立初始模型

四.模型迭代构建


数据准备:在大数据计算中从来不嫌数据太多,相反的数据越多越好。只要数据量大就好么?不是的,宁可要一小堆有潜质的矿石,我也不会去要山一样的土堆。在你数据量尽可能大的同时,一定要注意你的数据质量。数据质量一般体现在数据的时间维度,和数据粒度上。时间维度当然是越长越好,我们拿计算降雨量来看,如果你要预测一个地区未来一年的降雨量,你拿今年一年的数据去预测明年的数据,肯定没有我拿该地区过去一百年到现在的数据来预测明年降雨量客观。关于数据的粒度,很多人都会认为,数据”全”就是粒度小,或者是粒度细,我对此抱有不同看法。我认为数据粒度体现在数据的划分上,我们对现有数据的划分情况,方可体现数据的粒度,假如我们可以得到的数据量,和维度上是一样的,一个数据划分比较详细有很多数据关联,另一个划分很粗糙,那么结果不言而喻。


执行探索性数据分析:我们对数据划分,本身就是分析数据的一种体现,这个步骤可以让你理解数据,获得数据之间的关系,以及我们对于数据的直觉。当然我们对于数据的理解,和对于数据的直觉是简历在相关知识上的,如果你对现有数据一窍不通,你怎么去进行探索性数据分析呢?数据可视化,我认为是进行数据分析的关键。人脑无法与计算机相比,我们需要可视化的界面来展示数据,这样有利于我们对数据进行分析,像来自SAS,IBM,SAP或者QlikeTech和Tableau的可视化产品,它们已经商业化了。对于数据探索是永远不会停止的,我认为图形化数据是一个很好的方式,但是你可能会有更好,更适合你的方式。有一篇关于数据分析的文章,我记忆尤新的一句话,我也非常赞同作者的看法,那就是:要知道何时停止探索。要探讨这句话的意思,小编真的是停不下来,要知道何时停止探索,就是要明确你数据探索的标准,没有标准你怎么能在茫茫数据大海中捞针呢?


建立初始模型:这是一个至关重要的步骤,不管是否你对数据有深刻的研究,都不能跳过的一步。引用一下爱迪生的那句话“我并未失败,我刚刚发现了10000种不成功的方式”。除非你建立初始模型,否则你无法准确评价模型的潜在影响。决策树不失为一个好办法,实践是检验真理的唯一标准。


模型迭代构建:这应该是建模时间最长的一个阶段,也可以说没有时间终点的一个阶段。每一次的迭代都是一次实践的反馈,你要建立的模型是要经历不同的场景的,是一个“有故事”的模型,故事越多越好。通常是没有一个具体的评判标准来评判,你是否还有更好的建模,但是实际情况是,我们业务或者需求会有一个强制的时间窗口。就比如说,下个月客户就要你的清单,那么,你要做的就是在有限的时间里,不断地去迭代你的模型。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/131110.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • todomvc项目_reactive vue

    todomvc项目_reactive vue所有实现代码在文章结尾处分析整个实现过程的步骤:1.显示大标题“todoMVC”在h1中引入{{msg}},在js文件中将msg赋值,从而在html中显示大标签的内容2.当没有数据时,两块模板需要隐藏,用到v-if标签。将两个模板放在一个template标签中,当items.length=0时,则v-if=false,进而两块模板隐藏。3.引入数据。将JS中写好的默认数据引入在html的每一个li标签中。4.将每个事件划分为完成/未完成。该功能用到双向数据绑定,可以在浏览器中vue模

    2022年9月12日
    0
  • Android最全UI库合集

    Android最全UI库合集AndroidUILibrary目录索引抽屉菜单ListViewWebViewSwitchButton按钮点赞按钮进度条TabLayout图标下拉刷新ViewPager图表(Chart)菜单(Menu)浮动菜单对话框空白页滑动删除手势操作RecyclerViewCard…

    2022年5月2日
    67
  • 损失函数——交叉熵损失函数(CrossEntropy Loss)

    损失函数——交叉熵损失函数(CrossEntropy Loss)损失函数 交叉熵损失函数 CrossEntropy 交叉熵函数为在处理分类问题中常用的一种损失函数 其具体公式为 1 交叉熵损失函数由来交叉熵是信息论中的一个重要概念 主要用于度量两个概率分布间的差异性 首先我们来了解几个概念 1 1 信息量信息论奠基人香农 Shannon 认为 信息是用来消除随机不确定性的东西 也就是说衡量信息量大小就看这个信息消除不确定性的程度 太阳从东方升起了 这条信息没有减少不确定性 因为太阳肯定从东面升起 这是句废话 信息量为 0 六

    2025年6月28日
    0
  • idea2022激活码永久、_在线激活2022.02.05

    (idea2022激活码永久、)JetBrains旗下有多款编译器工具(如:IntelliJ、WebStorm、PyCharm等)在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上,过去15年以来,JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

    2022年4月1日
    137
  • java pfx 证书_java 证书 .cer 和 .pfx[通俗易懂]

    java pfx 证书_java 证书 .cer 和 .pfx[通俗易懂]作为文件形式存在的证书一般有这几种格式:1.带有私钥的证书由PublicKeyCryptographyStandards#12,PKCS#12标准定义,包含了公钥和私钥的二进制格式的证书形式,以pfx作为证书文件后缀名。2.二进制编码的证书证书中没有私钥,DER编码二进制格式的证书文件,以cer作为证书文件后缀名。3.Base64编码的证书证书中没有私钥,BASE64编码格式的证书文件…

    2022年5月27日
    70
  • javaweb权限管理简单实现_javaweb管理系统项目

    javaweb权限管理简单实现_javaweb管理系统项目推荐最新技术springboot版权限管理(java后台通用权限管理系统(springboot)),采用最新技术架构,功能强大!注:由于该项目比较老,所以没有采用maven管理,建议下载springboot权限管理系统,对学习和使用会更有帮助。springboot权限管理系统介绍地址:https://blog.csdn.net/zwx19921215/article/details/978……………

    2022年10月23日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号