大数据Lambda架构「建议收藏」

大数据Lambda架构

大家好,又见面了,我是全栈君。

1 Lambda架构介绍

         Lambda架构划分为三层。各自是批处理层,服务层,和加速层。

终于实现的效果,能够使用以下的表达式来说明。

query = function(alldata)

大数据Lambda架构「建议收藏」

1.1 批处理层(Batch Layer, Apache Hadoop)

         批处理层主用由Hadoop来实现,负责数据的存储和产生随意的视图数据。

计算视图数据是一个连续的操作,因此。当新数据到达时,使用MapReduce迭代地将数据聚集到视图中。

将数据集中计算得到的视图,这使得它不会被频繁地更新。依据你的数据集的大小和集群的规模,不论什么迭代转换计算的时间大约须要几小时。


1.2 服务层(Serving layer ,Cloudera Impala)

        服务层是由Cloudera Impala框架来实现的,总体而言,使用了Impala的主要特性。从批处理输出的是一系列包括估计算视图的原始文件。服务层负责建立索引和呈现视图。以便于它们可以被非常好被查询到。

        因为批处理视图是静态的,服务层只须要提供批量地更新和随机读,而Cloudera Impala正好符合我们的要求。为了使用Impala呈现视图。全部的服务层就是在Hive元数据中创建一个表。这些元数据都指向HDFS中的文件。随后,用户立马可以使用Impala查询到视图。

         Hadoop和Impala是批处理层和服务层极好的工具。

Hadoop可以存储和处理千兆字节(petabytes)数据,而Impala可以查询高速且交互地查询到这个数据。但是。批处理和服务层单独存在,无法满足实时性需求。原因是MapReduce在设计上存在非常高的延迟,它须要花费几小时的时间来将新数据展现给视图。然后通过媒介传递给服务层。

这就是为什么我们须要加速层的原因。


1.3 加速层 (Speed layer, Storm, Apache HBase)

         在本质上,加速层与批处理层是一样的,都是从它接受到的数据上计算而得到视图。加速层就是为了弥补批处理层的高延迟性问题,它通过Strom框架计算实时视图来解决问题。实时视图只包括数据结果去供应批处理视图。同一时候,批处理的设计就是连续反复从获取的数据中计算批处理视图,而加速层使用的是增量模型,这是鉴于实时视图是增量的。加速层的高明之处在于实时视图作为暂时量。只要数据传播到批处理中,服务层中对应的实时视图结果就会被丢掉。这个被称作为“全然隔离”,意味着架构中的复杂部分被推送到结构层次中。而结构层的结果为暂时的,大慷慨便了连续处理视图。

        令人疑惑的那部分就是呈现实时视图。以便于它们可以被查询到。以及使用批处理视图合并来获得所有的结果。

因为实时视图是增量的。加速层须要同一时候随机的读和写。为此,我将使用Apache HBase数据库。

HBase提供了对Storm连续地增量化实时视图的能力。同一时候,为Impala提供查询经批处理视图合并后得到的结果。Impala查询存储在HDFS中批处理视图和存储在HBase中的实时视图,这使得Impala成为相当完美的工具。

大数据Lambda架构「建议收藏」

 

        Lambda抽象架构也能够这样来描写叙述:

大数据Lambda架构「建议收藏」


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/115949.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 使用hibernate造成的MySql 8小时问题解决方案

    使用hibernate造成的MySql 8小时问题解决方案

    2022年3月6日
    41
  • Qt:windows下Qt安装教程

    Qt:windows下Qt安装教程win10按照qt

    2022年5月17日
    42
  • docker command not found_阿里云socket连接数

    docker command not found_阿里云socket连接数背景介绍阿里云提醒,服务器需由经典网络迁移至专有网络,迁移完成,启动服务时,原本已经运行了几个月的脚本,报错 10049。127.0.0.1测试无误,ping公网IP也没毛病,百思不得姐。解决方法各方查证,结论如下:阿里云有两种网络①经典网络②专有网络经典网络可以直接绑定公网IP,专有网络绑定公网IP??不好意思,不行!!why???客服是这么讲的“这不是经典网…

    2022年10月1日
    1
  • oracle连接plsqldev

    oracle连接plsqldev一F:\orcale\product\11.2.0\dbhome_1\NETWORK\ADMIN文件tnsnames.ora(ORCL就是数据库名称)ORCL=(DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=localhost)(PORT=1521))(CONNECT_DATA=(S…

    2022年4月25日
    27
  • 使用js替换文本中的换行符

    使用js替换文本中的换行符核心语句:使用正则表达式:txts=txts.replace(/[\n\r]/g,’需替换的内容’)如何用js替换文本里的换行符\n?

    2022年5月23日
    69
  • encode-decode结构

    encode-decode结构encode的输入是变长的序列向量,每个向量之间会在batch内填充为固定长度,神经网络限制,不能输入变长的向量。encode输出固定长度的向量,但序列数量和输入数量保持不变,也就是一个输入产生一个输出。每个输出之间是独立的。encode的网络可以不固定,比如常见nlp任务用rnn,。encode将可变序列编码为固定状态,decode将固定状态输入映射为其它可变序列。decode的网络可以不固定,其中ctc结合search策略也可以用来做decode。通用的“编码器-解码器”接口定义:fro.

    2022年10月7日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号