常用的几种大数据架构剖析

常用的几种大数据架构剖析大数据 nbsp 架构数据分析工作虽然隐藏在业务系统背后 但是具有非常重要的作用 数据分析的结果对决策 业务发展有着举足轻重的作用 随着大数据技术的发展 数据挖掘 数据探索等专有名词曝光度越来越高 但是在类似于 Hadoop 系列的大数据分析系统大行其道之前 数据分析工作已经经历了长足的发展 尤其是以 BI 系统为主的数据分析 已经有了非常成熟和稳定的技术方案和生态系统 对于 BI 系统来说 大概的架构图如下 nbsp

大数据 架构

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下: 

常用的几种大数据架构剖析

  • BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力,例如图片,文本,音频的存储,分析。
  • 由于数据仓库为结构化存储,在数据从其他系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。
  • 随着异构数据源的增加,例如如果存在视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂等ETL程序,从而导致ETL变得过于庞大和臃肿。
  • 当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。
  • 数据库的范式等约束规则,着力于解决数据冗余的问题,是为了保障数据的一致性,但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。
  • ETL动作对数据的预先假设和处理,导致机器学习部分获取到的数据为假设后的数据,因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘,则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据,否则无法结构化入库,然而大多数情况是需要基于异构数据才能提取出特征。

在一系列的问题下,以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大,对于Hadoop系统来说,从根本上解决了传统数据仓库的瓶颈的问题,但是也带来一系列的问题: 

  • 从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。
  • 大数据下的分布式存储强调数据的只读性质,所以类似于Hive,HDFS这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。

基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈: 

  • 分布式计算:分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,例如Spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据的传输。
  • 分布式存储:所谓的分布式存储,指的是将一个大文件拆成N份,每一份独立的放到一台机器上,这里就涉及到文件的副本,分片,以及管理等操作,分布式存储主要优化的动作都在这一块。
  • 检索和存储的结合:在早期的大数据组件中,存储和计算相对比较单一,但是目前更多的方向是在存储上做更多的手脚,让查询和计算更加高效,对于计算来说高效不外乎就是查找数据快,读取数据快,所以目前的存储不单单的存储数据内容,同时会添加很多元信息,例如索引信息。像类似于parquet和carbondata都是这样的思想。

常用的几种大数据架构剖析

常用的几种大数据架构剖析

常用的几种大数据架构剖析

常用的几种大数据架构剖析

常用的几种大数据架构剖析

常用的几种大数据架构剖析

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/200602.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月20日 上午10:27
下一篇 2026年3月20日 上午10:27


相关推荐

  • 解决xshell连接不上虚拟机

    解决xshell连接不上虚拟机步骤 检查 Linux 虚拟机的网络连接模式 确保它是 NAT 模式 由于只在本机进行连接 所以没有选择桥接模式 当然 桥接模式的配置会有所不同 在此不做深入分析 在 VMwareworkst 里 点击菜单栏上的 编辑 gt 虚拟网络编辑器 打开下方的虚拟网络编辑器 选择 VMnet8 NAT 模式 取消勾选 使用本地 DHCP 服务 若勾选 会设置动态 IP 在下图中 点击 NAT 设置 记住上图中的子网 IP 范围 如上图所示表示虚拟机在 192 168 44 0 192 16

    2026年3月17日
    3
  • ios5.1.1越狱实践

    ios5.1.1越狱实践今天一口气越狱了三台ipad,虽然是第一次越狱,但是借助于现在网络的发达,基本算是很顺利就完成了越狱。步骤:1,下载TinyUmbrella(小雨伞,名字不错)这个软件的用处是把没有越狱的ipad的shsh文件备份出来,这样以后可以降级到未越狱前的某个版本。注意,该软件需要有Java环境。所以,下载相关的java环境后,安装后就可以打开。第一次打开的

    2022年5月11日
    47
  • 华为智能门锁服务

    华为智能门锁服务

    2026年3月15日
    2
  • flow control

    flow controlPCIE每个VirtualChannel都维护一个独立的FlowControlCreditPool。发送端要发送TLP,首先得获得Credit。FlowControl对3种TLP有效:1.PostedRequest(P)-Messages和MemoryWrites;2.Non-PostedRequest(NP)-所有的Reads,I/Owrites,Con…

    2022年5月3日
    64
  • 六:面向对象(上)

    六:面向对象(上)跳转到总目录文章目录01、面向过程与面向对象02、类和对象2.1、Java类及类的成员2.2、类与对象的创建及使用2.3、对象的创建和使用:内存解析03、类的成员之一:属性04、类的成员之二:方法4.1、类中方法的声明和使用4.2、理解“万事万物皆对象”4.3、对象数组的内存解析4.4、匿名对象的使用4.5、自定义数组的工具类4.6、方法的重载(overload)4.7、可变个数的形参4.8、方法参数的值传递机制(重点!!!)4.8.1、**针对基本数据类型**4.8.2、**针对引用数据类型**4

    2022年7月24日
    13
  • 详细说明Ipad1 4.3.5的越狱过程

    详细说明Ipad1 4.3.5的越狱过程前言,使用Ipad很久了,但是都是老实巴交的使用APPLE提供的功能,没有使用很多的软件,因为要收费,只是看一看pdf和视频。但是时间长了,感觉不新鲜了,看了很久越狱的好处和弊端,心里痒痒的。最好终于手痒痒了,开始动手了。但是开始不顺利,我一直是跟着升级固件,最后升级到4.3.1

    2026年1月28日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号