大数据处理的基本流程是什么?[通俗易懂]

写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答大数据处理流程主要分为3步:1.数据抽取和集成2.数据分析3.数据解释补充1.数据抽取与集成由于大数据处理的数据来源类型丰富,利用多个数据库来接收来自客户端的数据,包括企业内部数据库、互联网数据和物联网数据,所以需要从数据中提取关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据

大家好,又见面了,我是你们的朋友全栈君。

写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

大数据处理流程主要分为3步:
1.数据抽取和集成
2.数据分析
3.数据解释

在这里插入图片描述

补充

大数据处理流程

1.数据抽取与集成

由于大数据处理的数据来源类型丰富,利用多个数据库来接收来自客户端的数据, 包括企业内部数据库、互联网数据和物联网数据,所以需要从数据中提取关系和实体, 经过关联和聚合等操作,按照统一定义的格式对数据进行存储。 用户可以通过上述数据库来进行简单的查询和处理。
在大数据的采集过程中,并发数高是其主要的特点和挑战,因为成千上万的用户可能同时来进行访问和操作,比如火车票售票网站和新浪微博,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑,如何在这些数据库之间进行负载均衡和分片更是需要深入思考和设计的问题。

2.数据分析

待获取数据后,用户可以根据自己的需求对这些数据进行分析处理,如数据挖掘、机器学习、数据统计等。统计与挖掘主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。分析涉及的数据量大是统计与分析这部分的主要特点和挑战,统计与分析对系统资源会有极大的占用。数据挖掘一般没有预先设定好的主题,主要是对现有数据进行各种算法的计算,从而起到预测的效果,然后实现高级别数据分析的需求。挖掘大数据价值的关键是数据分析环节。

3.数据解释

数据处理的结果是大数据处理流程中用户最关心的问题,正确的数据处理结果需要通过合适的展示方式被终端用户正确理解。数据解释的主要技术是可视化和人机交互。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/127132.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Ubuntu16.04 Caffe 安装步骤记录(超详尽)

    历时一周终于在ubuntu16.04系统成功安装caffe并编译,网上有很多教程,但是某些步骤并没有讲解详尽,导致配置过程总是出现各种各样匪夷所思的问题,尤其对于新手而言更是欲哭无泪,在我饱受折磨后决定把安装步骤记录下来,尽量详尽清楚明白,避免后来小白重蹈覆辙。安装硬件:inteli5+NVIDIA740M安装流程细分为如下10个步骤,细化步骤粒度更易避免出错

    2022年4月17日
    57
  • docker安装与启动

    docker安装与启动docker安装与启动

    2022年4月23日
    37
  • VB编程:ReleaseCapture&SendMessage拖动无标题栏的窗体-57

    VB编程:ReleaseCapture&SendMessage拖动无标题栏的窗体-57 PrivateDeclareFunctionReleaseCaptureLib"user32"()AsLongPrivateDeclareFunctionSendMessageLib"user32"Alias"SendMessageA"(ByValhwndAsLong,ByValwMsgAsLong,ByValwP…

    2022年5月22日
    40
  • 关于access字段名,下面叙述错误的是_accepted是什么意思

    关于access字段名,下面叙述错误的是_accepted是什么意思最基础的IOCP例子,没有使用扩展函数AcceptEx:IOCP模型*关于iocp的核心就一点:GetQueuedCompletionStatus将携带返回2个重要的参数,一个lpCompletionKey,一个lpOverlapped.lpCompletionKey:是CreateIoCompletionPort((HANDLE)clientSocket,…

    2022年9月29日
    4
  • Flask中使用Werkzeug「建议收藏」

    Flask中使用Werkzeug「建议收藏」Flask中有两大核心:Jinja2和WerkzeugWerkzeug是一个遵循WSGI协议的python函数库数据库中直接存放明文密码是很危险的,Werkzeug库中的security能够方便的实现散列密码的计算security库中generate_password_hash(password,method…)函数将原始密码作为输入,以字符串形式输出密码的散列值check_…

    2022年10月7日
    1
  • c语言 obj_obj转json

    c语言 obj_obj转json我是前言看开源代码时,总会看到一些大神级别的代码,给人眼前一亮的感觉,多数都是被淡忘的C语言语法,总结下objc写码中遇到的各类非主流代码技巧和一些妙用:[娱乐向]objc最短的方法声明[C]结构体的初始化[C]三元条件表达式的两元使用[C]数组的下标初始化[objc]可变参数类型的block[objc]readonly属性支持扩展的写法[C]小括号内联复合表达式[娱乐向]奇葩的C

    2022年10月18日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号