大数据管理与分析技术(1)[通俗易懂]

大数据管理与分析技术(1)[通俗易懂]一、大数据的基本概念摘要:大数据基本概念考点:大数据的4V特征、类型(结构化与非结构化大数据)、核心技术(分布式存储和分布式处理)、大数据计算模式(批处理计算、流计算、图计算、查询分析计算)、每类计算模式典型的代表产品。大数据的4V特征规模性(volume)、多样性(variety)、价值密度(value)和高速性(velocity)大数据的类型结构化大数据:能够用数据或统一的结构加以表示的,如数字、符号。传统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。非结构化大数据:是指其字段

大家好,又见面了,我是你们的朋友全栈君。

一、大数据的基本概念

摘要:大数据基本概念考点:大数据的4V特征、类型(结构化与非结构化大数据)、核心技术(分布式存储和分布式处理)、大数据计算模式(批处理计算、流计算、图计算、查询分析计算)、每类计算模式典型的代表产品。

  • 大数据的4V特征
    规模性(volume)、多样性(variety)、价值密度(value)和高速性(velocity)
  • 大数据的类型
    结构化大数据:能够用数据或统一的结构加以表示的,如数字、符号。传统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。
    非结构化大数据:是指其字段长度可变,并且每隔字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本,图像,声音,影视,超媒体等信息)。
  • 核心技术
    分布式存储:是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
    分布式处理:是将不同地点的,或具有不同功能的,或拥有不同数据的多台计算机通过通信网络连接起来,在控制系统的统一管理控制下,协调地完成大规模信息处理任务的计算机系统。
  • 大数据计算模式
    (1)批处理计算:针对大规模数据的批量处理。主要技术:MapReduce(仅适合离线批处理)、Spark
    (2)流计算:针对流数据的实时计算处理。主要技术:Storm、Flume、Streams、Puma、DStream、S4、SuperMario、银河流数据处理平台。
    (3)图计算:针对大规模图结构数据的处理。主要技术:Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
    (4)查询分析计算:大规模数据的存储管理和查询分析。主要技术:Hive、Impala、Dremel、Cassandra等。

二、Hadoop框架基础理论

摘要:Hadoop特性、核心模块与相应的主要功能(HDFS分布式文件系统、MapReduce计算模型)。
(1)HDFS文件系统基本内容:体系结构、HDFS实现的目标与局限性、HDFS的NameNode和DataNode的功能与模块(NameNode:FsImage与EditLog;DataNode:数据存储与检索)。
(2)MapReduce计算模型基本内容:体系结构(Client、JobTracker、TaskTracker以及Task)、优势(容错性好、硬件要求低、编程难度低、使用场景多等)、设计策略(分而治之、计算向数据靠拢、Master/Slave架构)。
(3)Map/Reduce的输入/输出和工作流程:Input->Map->Reduce->Output。

  • Hadoop特性:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在LInux平台上、支持多种编程语言
    补充:Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群进行高速运算和存储。Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称 HDFS。
  • Hadoop核心模块及对应的主要功能
    (1)Hadoop Common 为其他Hadoop模块提供基础设施
    (2)Hadoop HDFS一个高效、高吞吐量的分布式文件系统
    (3)Hadoop MapReduce一个分布式的离线并行计算框架。将计算分为两个阶段:Map(并行处理输入的数据)和Reduce(对map结果进行汇总),shuffle连接Map和Reduce两个阶段,仅适合离线简单的批处理(高容错性和易扩展性),缺点是成本高、效率低。
    (4)Hadoop YARN任务调度与资源管理
  • HDFS文件系统基本内容
    (1)体系结构:主从结构
    1)NameNode:主节点 (职责是管理维护HDFS(主要维护两个文件:FsImage与EditLog):存放元数据信息,存储文件名称,文件属性,文件块列表,所在dn节点列表。)
    补充:
    FsImage保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。
    EditLog主要是在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录,HDFS客户端执行所有的写操作都会被记录到editlog中。
    2)DataNode:从节点(数据存储与检索)
    3)SecondaryNameNode:第二名称节点
    (2)HDFS的目标:故障检测和快速自动恢复
    (3)HDFS的局限性:
    1)实时的数据访问弱:由于存储量大,所以读取数据慢。
    2)大量小文件: 因为NameNode把文件系统的元数据放置在内存中,所以文件系统所能容纳的文件数目是由Namenode的内存大小来决定,影响性能,
    3)不支持多用户写入,任意修改文件:HDFS文件只能有一个写入者,写数据只能在文件末尾添加,不支持多用户写者,不支持数据写入后在文件任意位置修改。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/132858.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 二极管处于截止状态时电压为多少_放大电路饱和失真

    二极管处于截止状态时电压为多少_放大电路饱和失真1.截止状态所谓截止,就是三极管在工作时,集电极电流始终为0。此时,集电极与发射极间电压接近电源电压。对于NPN型硅三极管来说,当Ube在0~0.5V之间时,Ib很小,无论Ib怎样变化,Ic都为0。此时,三极管的内阻(Rce)很大,三极管截止。当在维修过程中,测得Ube低于0.5V或Uce接近电源电压时,就可知道三极管处在截止状态。当Ube在0.5~0.7V之间时,Ub

    2025年10月18日
    5
  • 较好的Mac激活成功教程软件下载地址「建议收藏」

    较好的Mac激活成功教程软件下载地址「建议收藏」史蒂芬周的博客

    2022年10月10日
    1
  • 香农编码,哈夫曼编码与费诺编码的比较[通俗易懂]

    香农编码,哈夫曼编码与费诺编码的比较[通俗易懂]一、香农编码概念:香农编码是是采用信源符号的累计概率分布函数来分配字码的。香农编码是根据香农第一定理直接得出的,指出了平均码长与信息之间的关系,同时也指出了可以通过编码使平均码长达到极限值。香农第一定理是将原始信源符号转化为新的码符号,使码符号尽量服从等概分布,从而每个码符号所携带的信息量达到最大,进而可以用尽量少的码符号传输信源信息。香农编码属于不等长编码,通常将经常出现的消息变成短码,不…

    2025年10月24日
    3
  • 2D网络游戏(2d网络游戏大全列表)

    2D网络游戏开发(网络篇)(一) 作者:akinggw “2D网游开发”,我有时都觉得这个标题包含的内容太多,要实现起来也太难。于是,我决定将它分门别类,我按照我要实现的一个网络游戏将它分成下面几个部分: l      客户端l      网络端l      服务器端l      网页端 我们来讲解一下,我们分别要在每个端口完成什么内容: 

    2022年4月16日
    101
  • django权限管理例子_php万能自定义表单系统

    django权限管理例子_php万能自定义表单系统前言上一篇我们分析了认证的源码,一个请求认证通过以后,第二步就是查看权限了,drf默认是允许所有用户访问权限源码分析源码入口:APIView.py文件下的initial方法下的check_per

    2022年7月31日
    6
  • openwrt做主路由_开发三问

    openwrt做主路由_开发三问一、CBI语法CBI去修改UCI配置文件的值,CBI是通过web控件选择值去修改UCI文件。,所有的CBI文件都必须返回一个luci.cbi.Map类型的对象。–translate()是因为字符串中有空格,如果没有空格就不用使用该函数m=Map(“cbi_file”,translate(“FirstTabForm”),translate(“Pleasefilloutthefo

    2025年6月28日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号