大数据Lambda架构「建议收藏」

大数据Lambda架构

大家好,又见面了,我是全栈君。

1 Lambda架构介绍

         Lambda架构划分为三层。各自是批处理层,服务层,和加速层。

终于实现的效果,能够使用以下的表达式来说明。

query = function(alldata)

大数据Lambda架构「建议收藏」

1.1 批处理层(Batch Layer, Apache Hadoop)

         批处理层主用由Hadoop来实现,负责数据的存储和产生随意的视图数据。

计算视图数据是一个连续的操作,因此。当新数据到达时,使用MapReduce迭代地将数据聚集到视图中。

将数据集中计算得到的视图,这使得它不会被频繁地更新。依据你的数据集的大小和集群的规模,不论什么迭代转换计算的时间大约须要几小时。


1.2 服务层(Serving layer ,Cloudera Impala)

        服务层是由Cloudera Impala框架来实现的,总体而言,使用了Impala的主要特性。从批处理输出的是一系列包括估计算视图的原始文件。服务层负责建立索引和呈现视图。以便于它们可以被非常好被查询到。

        因为批处理视图是静态的,服务层只须要提供批量地更新和随机读,而Cloudera Impala正好符合我们的要求。为了使用Impala呈现视图。全部的服务层就是在Hive元数据中创建一个表。这些元数据都指向HDFS中的文件。随后,用户立马可以使用Impala查询到视图。

         Hadoop和Impala是批处理层和服务层极好的工具。

Hadoop可以存储和处理千兆字节(petabytes)数据,而Impala可以查询高速且交互地查询到这个数据。但是。批处理和服务层单独存在,无法满足实时性需求。原因是MapReduce在设计上存在非常高的延迟,它须要花费几小时的时间来将新数据展现给视图。然后通过媒介传递给服务层。

这就是为什么我们须要加速层的原因。


1.3 加速层 (Speed layer, Storm, Apache HBase)

         在本质上,加速层与批处理层是一样的,都是从它接受到的数据上计算而得到视图。加速层就是为了弥补批处理层的高延迟性问题,它通过Strom框架计算实时视图来解决问题。实时视图只包括数据结果去供应批处理视图。同一时候,批处理的设计就是连续反复从获取的数据中计算批处理视图,而加速层使用的是增量模型,这是鉴于实时视图是增量的。加速层的高明之处在于实时视图作为暂时量。只要数据传播到批处理中,服务层中对应的实时视图结果就会被丢掉。这个被称作为“全然隔离”,意味着架构中的复杂部分被推送到结构层次中。而结构层的结果为暂时的,大慷慨便了连续处理视图。

        令人疑惑的那部分就是呈现实时视图。以便于它们可以被查询到。以及使用批处理视图合并来获得所有的结果。

因为实时视图是增量的。加速层须要同一时候随机的读和写。为此,我将使用Apache HBase数据库。

HBase提供了对Storm连续地增量化实时视图的能力。同一时候,为Impala提供查询经批处理视图合并后得到的结果。Impala查询存储在HDFS中批处理视图和存储在HBase中的实时视图,这使得Impala成为相当完美的工具。

大数据Lambda架构「建议收藏」

 

        Lambda抽象架构也能够这样来描写叙述:

大数据Lambda架构「建议收藏」


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/115949.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 机器学习中的数学——激活函数(六):Parametric ReLU(PReLU)函数

    机器学习中的数学——激活函数(六):Parametric ReLU(PReLU)函数PReLU也是ReLU的改进版本:PReLU(x)={x,x>0αix,x≤0PReLU(x)=\left\{\begin{aligned}x&\quad,x>0\\\alpha_ix&\quad,x\leq0\\\end{aligned}\right.PReLU(x)={xαi​x​,x>0,x≤0​PReLU函数中,参数α\alphaα通常为0到1之间的数字,并且通常相对较小。如果αi=0\alpha_i=0αi​=0

    2022年6月22日
    43
  • 伯努利分布、二项式分布与多项式分布简介「建议收藏」

    伯努利分布、二项式分布与多项式分布简介「建议收藏」一,伯努利分布(bernoulidistribution)又叫做0-1分布,指一次随机试验,结果只有两种。也就是一个随机变量的取值只有0和1。记为:0-1分布或B(1,p),其中p表示一次伯努利实验中结果为正或为1的概率。 概率计算:P(X=0)=p0P(X=1)=p1期望计算:E(X)=0∗p0+1∗p1=p最简单的例子就是,抛一次硬币,预测…

    2022年10月11日
    4
  • python pyc文件解析_pyc文件

    python pyc文件解析_pyc文件codeobject¶在我们导入python脚本时在目录下会生成个一个相应的pyc文件,是pythoncodeobj的持久化储存形式,加速下一次的装载。文件结构¶pyc文件由三大部分组成最开始4个字节是一个Maigcint,标识此pyc的版本信息接下来四个字节还是个int,是pyc产生的时间序列化的PyCodeObject,结构参照include/code.h,序列化方法pyth…

    2022年6月29日
    41
  • Ajax发送请求的四个步骤

    Ajax发送请求的四个步骤<scripttype=”text/javascript”> window.onload=function(){ varbtn=document.getElementById(‘btn’); btn.onclick=function(){ //使用Ajax发送请求需要如下几步 //1、创建XMLHttpRequest(); varxhr=…

    2022年5月17日
    47
  • vue less CSS滚动条样式修改美化变细「建议收藏」

    vue less CSS滚动条样式修改美化变细「建议收藏」vuelessCSS滚动条样式修改美化变细

    2022年10月21日
    3
  • 详解独立成分分析

    详解独立成分分析最近在学习数据降维的一些方法(有关数据降维的其他内容请看这篇文章),虽然独立成分分析不算是严格意义上的降维方法,但是它和PCA有着千丝万缕的联系,所以打算专门写一篇文章来学习ICA的相关知识,看了挺多的关于ICA的博文,有些文章讲的比较详细。有句话是这么说的:“论文是详细版的知识讲解”,也就是说如果想深入详细的了解某个知识,那么去读相关论文,所以阅读了一篇经典的ICA论文,作者是A.Hyva¨r…

    2022年5月17日
    42

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号