浅谈大数据建模「建议收藏」

浅谈大数据建模「建议收藏」前言:建模的过程和方法,不断地被开发和完善,你可能会说不同的数据类型,不同的业务场景,不同的需求,都会有不同的建模方法,我很赞同。但是我想说,不管你的数据是什么,要在大数据中建立自己的数据模型这其中的套路还是有规律可寻的。一.数据准备二.执行探索性数据分析三.建立初始模型四.模型迭代构建数据准备:在大数据计算中从来不嫌数据太多,相反的数据越多越好。只要数

大家好,又见面了,我是你们的朋友全栈君。

前言:建模的过程和方法,不断地被开发和完善,你可能会说不同的数据类型,不同的业务场景,不同的需求,都会有不同的建模方法,我很赞同。但是我想说,不管你的数据是什么,要在大数据中建立自己的数据模型这其中的套路还是有规律可寻的。


一.数据准备

二.执行探索性数据分析

三.建立初始模型

四.模型迭代构建


数据准备:在大数据计算中从来不嫌数据太多,相反的数据越多越好。只要数据量大就好么?不是的,宁可要一小堆有潜质的矿石,我也不会去要山一样的土堆。在你数据量尽可能大的同时,一定要注意你的数据质量。数据质量一般体现在数据的时间维度,和数据粒度上。时间维度当然是越长越好,我们拿计算降雨量来看,如果你要预测一个地区未来一年的降雨量,你拿今年一年的数据去预测明年的数据,肯定没有我拿该地区过去一百年到现在的数据来预测明年降雨量客观。关于数据的粒度,很多人都会认为,数据”全”就是粒度小,或者是粒度细,我对此抱有不同看法。我认为数据粒度体现在数据的划分上,我们对现有数据的划分情况,方可体现数据的粒度,假如我们可以得到的数据量,和维度上是一样的,一个数据划分比较详细有很多数据关联,另一个划分很粗糙,那么结果不言而喻。


执行探索性数据分析:我们对数据划分,本身就是分析数据的一种体现,这个步骤可以让你理解数据,获得数据之间的关系,以及我们对于数据的直觉。当然我们对于数据的理解,和对于数据的直觉是简历在相关知识上的,如果你对现有数据一窍不通,你怎么去进行探索性数据分析呢?数据可视化,我认为是进行数据分析的关键。人脑无法与计算机相比,我们需要可视化的界面来展示数据,这样有利于我们对数据进行分析,像来自SAS,IBM,SAP或者QlikeTech和Tableau的可视化产品,它们已经商业化了。对于数据探索是永远不会停止的,我认为图形化数据是一个很好的方式,但是你可能会有更好,更适合你的方式。有一篇关于数据分析的文章,我记忆尤新的一句话,我也非常赞同作者的看法,那就是:要知道何时停止探索。要探讨这句话的意思,小编真的是停不下来,要知道何时停止探索,就是要明确你数据探索的标准,没有标准你怎么能在茫茫数据大海中捞针呢?


建立初始模型:这是一个至关重要的步骤,不管是否你对数据有深刻的研究,都不能跳过的一步。引用一下爱迪生的那句话“我并未失败,我刚刚发现了10000种不成功的方式”。除非你建立初始模型,否则你无法准确评价模型的潜在影响。决策树不失为一个好办法,实践是检验真理的唯一标准。


模型迭代构建:这应该是建模时间最长的一个阶段,也可以说没有时间终点的一个阶段。每一次的迭代都是一次实践的反馈,你要建立的模型是要经历不同的场景的,是一个“有故事”的模型,故事越多越好。通常是没有一个具体的评判标准来评判,你是否还有更好的建模,但是实际情况是,我们业务或者需求会有一个强制的时间窗口。就比如说,下个月客户就要你的清单,那么,你要做的就是在有限的时间里,不断地去迭代你的模型。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/131110.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月29日 下午3:00
下一篇 2022年4月29日 下午3:20


相关推荐

  • Qt的4种多线程实现方式

    Qt的4种多线程实现方式一 QThread 类的 run 一 实现方法 新建一个集成 QThread 的类 重写虚函数 run 通过 run 启动线程二 示例 include QThread include QDebug classMyThrea publicQThrea Q OBJECTprotec voidrun dosomethingq lt lt FUNCTION lt amp QDebug QThread

    2025年11月3日
    5
  • 采用CreateThread()创建多线程程序[通俗易懂]

    采用CreateThread()创建多线程程序[通俗易懂]采用CreateThread()创建多线程程序在window环境下,Win32提供了一系列的API函数来完成线程的创建、挂起、恢复、终结以及通信等工作:1、主要的函数列表:序号函数名功能1CreateThread()创建一个新线程2ExitThread()正

    2022年7月11日
    26
  • edu邮箱是什么?5分钟快速申请一个EDU邮箱

    edu邮箱是什么?5分钟快速申请一个EDU邮箱

    2026年3月15日
    3
  • CNCF开源项目概述

    CNCF开源项目概述目录 CNCF 简介 KubernetesEn 需求背景 EnvoyProxy 简介 CoreDNS 简介架构原理 TUF 简介 Jaeger 简介架构 Vitess 简介 etcd 简介应用场景 NATS 简介使用场景 CloudEventsP 简介监控的目标与常见监控系统比较常用的监控系统的不足 Prometheus 的优势 gRPCgRPC 简介什么是 RPC 特性基于 HTTP 2IDL 使用 ProtoBuf 多语言支持 C C Pytho

    2026年3月17日
    2
  • Java中的八种基本数据类型「建议收藏」

    Java中的八种基本数据类型「建议收藏」Java中主要有八种基本数据类型:byte、short、int、long、float、double、boolean、char。各种数据类型作用:1、byte:8位、有符号的以二进制补码表示的整数。min:-128(-2^7)。max:127(2^7-1)。default:0。对应包装类:Byte。2、short:16位…

    2022年7月7日
    21
  • c语言解析xml文档

    c语言解析xml文档DOM=DocumentObjectModel,文档对象模型,DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。换句话说,这是表示和处理一个HTML或XML文档的常用方法。有一点很重要,DOM的设计是以对象管理组织(OMG)的规约为基础的,因此可以用于任何编程语言。       Dom技术使得用户页面可以动态地变化,如可以动态地显示或隐藏一个元素,改变它们的属性,增

    2022年7月12日
    39

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号