浅谈大数据建模「建议收藏」

浅谈大数据建模「建议收藏」前言:建模的过程和方法,不断地被开发和完善,你可能会说不同的数据类型,不同的业务场景,不同的需求,都会有不同的建模方法,我很赞同。但是我想说,不管你的数据是什么,要在大数据中建立自己的数据模型这其中的套路还是有规律可寻的。一.数据准备二.执行探索性数据分析三.建立初始模型四.模型迭代构建数据准备:在大数据计算中从来不嫌数据太多,相反的数据越多越好。只要数

大家好,又见面了,我是你们的朋友全栈君。

前言:建模的过程和方法,不断地被开发和完善,你可能会说不同的数据类型,不同的业务场景,不同的需求,都会有不同的建模方法,我很赞同。但是我想说,不管你的数据是什么,要在大数据中建立自己的数据模型这其中的套路还是有规律可寻的。


一.数据准备

二.执行探索性数据分析

三.建立初始模型

四.模型迭代构建


数据准备:在大数据计算中从来不嫌数据太多,相反的数据越多越好。只要数据量大就好么?不是的,宁可要一小堆有潜质的矿石,我也不会去要山一样的土堆。在你数据量尽可能大的同时,一定要注意你的数据质量。数据质量一般体现在数据的时间维度,和数据粒度上。时间维度当然是越长越好,我们拿计算降雨量来看,如果你要预测一个地区未来一年的降雨量,你拿今年一年的数据去预测明年的数据,肯定没有我拿该地区过去一百年到现在的数据来预测明年降雨量客观。关于数据的粒度,很多人都会认为,数据”全”就是粒度小,或者是粒度细,我对此抱有不同看法。我认为数据粒度体现在数据的划分上,我们对现有数据的划分情况,方可体现数据的粒度,假如我们可以得到的数据量,和维度上是一样的,一个数据划分比较详细有很多数据关联,另一个划分很粗糙,那么结果不言而喻。


执行探索性数据分析:我们对数据划分,本身就是分析数据的一种体现,这个步骤可以让你理解数据,获得数据之间的关系,以及我们对于数据的直觉。当然我们对于数据的理解,和对于数据的直觉是简历在相关知识上的,如果你对现有数据一窍不通,你怎么去进行探索性数据分析呢?数据可视化,我认为是进行数据分析的关键。人脑无法与计算机相比,我们需要可视化的界面来展示数据,这样有利于我们对数据进行分析,像来自SAS,IBM,SAP或者QlikeTech和Tableau的可视化产品,它们已经商业化了。对于数据探索是永远不会停止的,我认为图形化数据是一个很好的方式,但是你可能会有更好,更适合你的方式。有一篇关于数据分析的文章,我记忆尤新的一句话,我也非常赞同作者的看法,那就是:要知道何时停止探索。要探讨这句话的意思,小编真的是停不下来,要知道何时停止探索,就是要明确你数据探索的标准,没有标准你怎么能在茫茫数据大海中捞针呢?


建立初始模型:这是一个至关重要的步骤,不管是否你对数据有深刻的研究,都不能跳过的一步。引用一下爱迪生的那句话“我并未失败,我刚刚发现了10000种不成功的方式”。除非你建立初始模型,否则你无法准确评价模型的潜在影响。决策树不失为一个好办法,实践是检验真理的唯一标准。


模型迭代构建:这应该是建模时间最长的一个阶段,也可以说没有时间终点的一个阶段。每一次的迭代都是一次实践的反馈,你要建立的模型是要经历不同的场景的,是一个“有故事”的模型,故事越多越好。通常是没有一个具体的评判标准来评判,你是否还有更好的建模,但是实际情况是,我们业务或者需求会有一个强制的时间窗口。就比如说,下个月客户就要你的清单,那么,你要做的就是在有限的时间里,不断地去迭代你的模型。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/131110.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 从机械硬盘和固态硬盘的结构来看IO

    从机械硬盘和固态硬盘的结构来看IO“磁盘”这个词,对于程序员来说并不陌生,我们知道它是一种存储介质,主要用来存储数据的,可以说常用的中间件基本上都离不开它,比如我们常用的MySQL数据库、kafka消息引擎,甚至redis缓存都离不开磁盘。我们在优化某个业务逻辑的时候,经常需要用到缓存,尽量让热数据都从缓存里读取,因为我们知道磁盘是缓慢的,特别在高并发的场景下,我们要保证极少的请求走磁盘IO。不知道你有没有思考过以下问题: 机械硬盘为什么慢? 机械硬盘有多慢? kafka也是写磁盘的,它却挺快的,为什么?..

    2022年5月12日
    40
  • List去重工具类

    List去重工具类publicclassListUtil{Setset=newHashSet();List<T>newList=List.newArrayList();Iterator<?>iterator=list.iterator();where(iterator.next()){Tobject=…

    2022年5月13日
    56
  • 计算机基础复习题库

    计算机基础复习题库写在最前面,本文中题库为搜寻整理所得。一、单选题练习1.完整的计算机系统由( C )组成。A.运算器、控制器、存储器、输入设备和输出设备B.主机和外部设备C.硬件系统和软件系统D.主机箱、显示器、键盘、鼠标、打印机2.以下软件中,( D )不是操作系统软件。A.WindowsxpB.unixC.linux  D.microsoftoffice3.用一个字节最多能编出(D)不同的码。A.8个…

    2022年4月15日
    54
  • 我的 Vue.js 学习日记 (四) – v-bind:class / style 用法

    我的 Vue.js 学习日记 (四) – v-bind:class / style 用法

    2022年4月2日
    38
  • pandoc latex转word_使用latex格式编辑word

    pandoc latex转word_使用latex格式编辑word1、TeXstudio中输出为pdf,用word打开另存为A.docx2、使用(https://pandoc.org/),命令行:pandoc-s.\XXX.tex-o.\B.docx3

    2022年8月3日
    6
  • 类似于谷歌的搜索引擎_类似谷歌的搜索引擎

    类似于谷歌的搜索引擎_类似谷歌的搜索引擎推荐几款优秀的、甚至可以代替谷歌的搜索引擎。本文将要推荐的搜索引擎分为4类,分别是国内可使用、国内不可使用、视频搜索、特殊。每个搜索引擎都将展示网址、介绍、效果图。

    2022年9月10日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号