大数据处理的基本流程是什么?[通俗易懂]

写在前面本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答大数据处理流程主要分为3步:1.数据抽取和集成2.数据分析3.数据解释补充1.数据抽取与集成由于大数据处理的数据来源类型丰富,利用多个数据库来接收来自客户端的数据,包括企业内部数据库、互联网数据和物联网数据,所以需要从数据中提取关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据

大家好,又见面了,我是你们的朋友全栈君。

写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

大数据处理流程主要分为3步:
1.数据抽取和集成
2.数据分析
3.数据解释

在这里插入图片描述

补充

大数据处理流程

1.数据抽取与集成

由于大数据处理的数据来源类型丰富,利用多个数据库来接收来自客户端的数据, 包括企业内部数据库、互联网数据和物联网数据,所以需要从数据中提取关系和实体, 经过关联和聚合等操作,按照统一定义的格式对数据进行存储。 用户可以通过上述数据库来进行简单的查询和处理。
在大数据的采集过程中,并发数高是其主要的特点和挑战,因为成千上万的用户可能同时来进行访问和操作,比如火车票售票网站和新浪微博,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑,如何在这些数据库之间进行负载均衡和分片更是需要深入思考和设计的问题。

2.数据分析

待获取数据后,用户可以根据自己的需求对这些数据进行分析处理,如数据挖掘、机器学习、数据统计等。统计与挖掘主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。分析涉及的数据量大是统计与分析这部分的主要特点和挑战,统计与分析对系统资源会有极大的占用。数据挖掘一般没有预先设定好的主题,主要是对现有数据进行各种算法的计算,从而起到预测的效果,然后实现高级别数据分析的需求。挖掘大数据价值的关键是数据分析环节。

3.数据解释

数据处理的结果是大数据处理流程中用户最关心的问题,正确的数据处理结果需要通过合适的展示方式被终端用户正确理解。数据解释的主要技术是可视化和人机交互。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/127132.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • idea2021激活码【注册码】

    idea2021激活码【注册码】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月18日
    44
  • 海康威视rtsp取流地址(海康威视设置教程)

    RTSP视频流显示(海康威视)VLCSDK(C++)ffmpeg+Nginx本文目的主要是想要在html上实时显示海康威视的摄像头数据,笔者尝试了如下三种方式:VLCSDK(C++)ffmpeg+Nginx下面分别说说通过这几种方式如何实现在web页面上显示。VLC填的地址就是摄像头RTSP视频流地址,然后点串流:左上角是这样的说明就已经在转换了:网页显示注意…

    2022年4月17日
    2.6K
  • 在Ubuntu/Linux环境下使用MySQL:开放/修改3306端口、开放访问权限「建议收藏」

    在Ubuntu/Linux环境下使用MySQL:开放/修改3306端口、开放访问权限「建议收藏」一、查看3306端口是否开放netstat-an|grep3306如果看到下图这样的,说明端口并未打开:二、修改访问权限进入目录“etc/mysql/mysql.conf.d/”,如下图所示:在这个目录下,有一个配置文件“mysqld.cnf”,如下图所示:打开这个配置文件:sudovimmysqld.cnf文件打开后有一大段注释说明,不…

    2022年8月30日
    0
  • STM32独立看门狗实验

    STM32独立看门狗实验一为什么需要看门狗?在MCU微型计算机系统中,MCU运行程序很容易受到外界电磁场的干扰,从而造成程序运行错误甚至发生跑飞现象,从而陷入死循环,程序的正常运行被打乱,从而造成不可预料的严重后果,于是人们就设计了一款用于实时监测计算机运行状态的芯片,我们就将其称为“看门狗(WatchDog)”。二看门狗的作用看门狗在我们程序正常工作的时候是不工作的,也就是说他根本没有任何作用,只有在单片…

    2022年5月18日
    110
  • Java8 Stream groupingBy对List进行分组

    Java8 Stream groupingBy对List进行分组提到GroupBy,首先想到的往往是sql中的groupby操作,对搜索结果进行分组。其实Java8StreamsAPI中的Collector也支持流中的数据进行分组和分区操作,本片文章讲简单介绍一下,如何使用groupingBy和partitioningBy来对流中的元素进行分组和分区。 groupingBy 首先看一下Java8之前如果想对一个List做分组操作,我们需要…

    2022年8月20日
    9
  • SpringBoot(二十二)整合Mybatis,使用SqlSessionTemplate实现增删改查[通俗易懂]

    SpringBoot(二十二)整合Mybatis,使用SqlSessionTemplate实现增删改查[通俗易懂]在之前这篇基础上进行改造使用JdbcTemplate实现增删改查。SpringBoot版本:2.1.1目录结构如下:pom文件添加依赖,如下:<!–添加依赖以后Mybatis就自动配置好了,可以直接使用,具体自动配置代码到mybatis-spring-boot-autoconfigure包下查看–><!–上一篇博客里添加的spring-boot…

    2022年5月25日
    56

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号