浅谈大数据建模「建议收藏」

浅谈大数据建模「建议收藏」前言:建模的过程和方法,不断地被开发和完善,你可能会说不同的数据类型,不同的业务场景,不同的需求,都会有不同的建模方法,我很赞同。但是我想说,不管你的数据是什么,要在大数据中建立自己的数据模型这其中的套路还是有规律可寻的。一.数据准备二.执行探索性数据分析三.建立初始模型四.模型迭代构建数据准备:在大数据计算中从来不嫌数据太多,相反的数据越多越好。只要数

大家好,又见面了,我是你们的朋友全栈君。

前言:建模的过程和方法,不断地被开发和完善,你可能会说不同的数据类型,不同的业务场景,不同的需求,都会有不同的建模方法,我很赞同。但是我想说,不管你的数据是什么,要在大数据中建立自己的数据模型这其中的套路还是有规律可寻的。


一.数据准备

二.执行探索性数据分析

三.建立初始模型

四.模型迭代构建


数据准备:在大数据计算中从来不嫌数据太多,相反的数据越多越好。只要数据量大就好么?不是的,宁可要一小堆有潜质的矿石,我也不会去要山一样的土堆。在你数据量尽可能大的同时,一定要注意你的数据质量。数据质量一般体现在数据的时间维度,和数据粒度上。时间维度当然是越长越好,我们拿计算降雨量来看,如果你要预测一个地区未来一年的降雨量,你拿今年一年的数据去预测明年的数据,肯定没有我拿该地区过去一百年到现在的数据来预测明年降雨量客观。关于数据的粒度,很多人都会认为,数据”全”就是粒度小,或者是粒度细,我对此抱有不同看法。我认为数据粒度体现在数据的划分上,我们对现有数据的划分情况,方可体现数据的粒度,假如我们可以得到的数据量,和维度上是一样的,一个数据划分比较详细有很多数据关联,另一个划分很粗糙,那么结果不言而喻。


执行探索性数据分析:我们对数据划分,本身就是分析数据的一种体现,这个步骤可以让你理解数据,获得数据之间的关系,以及我们对于数据的直觉。当然我们对于数据的理解,和对于数据的直觉是简历在相关知识上的,如果你对现有数据一窍不通,你怎么去进行探索性数据分析呢?数据可视化,我认为是进行数据分析的关键。人脑无法与计算机相比,我们需要可视化的界面来展示数据,这样有利于我们对数据进行分析,像来自SAS,IBM,SAP或者QlikeTech和Tableau的可视化产品,它们已经商业化了。对于数据探索是永远不会停止的,我认为图形化数据是一个很好的方式,但是你可能会有更好,更适合你的方式。有一篇关于数据分析的文章,我记忆尤新的一句话,我也非常赞同作者的看法,那就是:要知道何时停止探索。要探讨这句话的意思,小编真的是停不下来,要知道何时停止探索,就是要明确你数据探索的标准,没有标准你怎么能在茫茫数据大海中捞针呢?


建立初始模型:这是一个至关重要的步骤,不管是否你对数据有深刻的研究,都不能跳过的一步。引用一下爱迪生的那句话“我并未失败,我刚刚发现了10000种不成功的方式”。除非你建立初始模型,否则你无法准确评价模型的潜在影响。决策树不失为一个好办法,实践是检验真理的唯一标准。


模型迭代构建:这应该是建模时间最长的一个阶段,也可以说没有时间终点的一个阶段。每一次的迭代都是一次实践的反馈,你要建立的模型是要经历不同的场景的,是一个“有故事”的模型,故事越多越好。通常是没有一个具体的评判标准来评判,你是否还有更好的建模,但是实际情况是,我们业务或者需求会有一个强制的时间窗口。就比如说,下个月客户就要你的清单,那么,你要做的就是在有限的时间里,不断地去迭代你的模型。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/131110.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • SCrollTOP scrollHeight

    SCrollTOP scrollHeightjQuery里和滚动条有关的概念很多,但是有三个属性和滚动条的拖动有关,就是:scrollTop、scrollLeft、scrollHeight。其中scrollHeight属性,互联网上几乎搜素不到关于它的应用技巧,而我正好需要用到它。   我们现在只探讨和垂直滚动有关的scrollTop、scrollHeight属性。   一、滚动条有关属性的正确理解: 

    2022年7月24日
    10
  • c语言中fprintf_c语言输出函数printf

    c语言中fprintf_c语言输出函数printf目录一.fprintf函数简介二.fprintf函数使用三.猜你喜欢零基础C/C++学习路线推荐:C/C++学习目录>>C语言基础入门一.fprintf函数简介fprintf是C/C++中的一个格式化库函数,位于头文件中,其作用是格式化输出到一个流文件中;函数原型为/**描述:fputs函数是向指定的文件写入一个字符串**参数:*[in]stream:文件指针句柄;*[in]format:格式化字符串,

    2022年10月10日
    3
  • JAVA实习生/应届生面试笔试题(一)

    一:单选题1. 下列哪一种叙述是正确的(D )A.abstract修饰符可修饰字段、方法和类B.抽象方法的body部分必须用一对大括号{}包住C.声明抽象方法,大括号可有可无D.声明抽象方法不可写出大括号2. 如下代码publicclassTest{publicintaMethod(){staticinti=0;i++;returni;}publicstatic…

    2022年4月9日
    82
  • 如何查看mysql的版本_查看mysql版本语句是什么

    如何查看mysql的版本_查看mysql版本语句是什么查看MySQL的版本,主要有以下几个方法:1.没有连接到MySQL服务器,就想查看MySQL的版本。打开cmd,切换至mysql的bin目录,运行下面的命令即可:e:\mysql\bin>mysql -Vmysql  Ver 14.14 Distrib 5.6.32, for Win32 (AMD64)(版本为5.6.32)或者:e:\m

    2022年9月1日
    6
  • 翻译软件市场分析_it软件开发 2019年小结

    翻译软件市场分析_it软件开发 2019年小结「译」软件开发趋势 2019 调查报告

    2022年4月22日
    55
  • DDPG 算法

    DDPG 算法DDPG算法1离散动作vs.连续动作离散动作与连续动作是相对的概念,一个是可数的,一个是不可数的。在CartPole环境中,可以有向左推小车、向右推小车两个动作。在FrozenLake环境中,小乌龟可以有上下左右四个动作。在Atari的Pong游戏中,游戏有6个按键的动作可以输出。但在实际情况中,经常会遇到连续动作空间的情况,也就是输出的动作是不可数的。比如说推小车力的大小、选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。对于这些连续

    2022年6月15日
    106

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号