大数据管理与分析技术(1)[通俗易懂]

大数据管理与分析技术(1)[通俗易懂]一、大数据的基本概念摘要:大数据基本概念考点:大数据的4V特征、类型(结构化与非结构化大数据)、核心技术(分布式存储和分布式处理)、大数据计算模式(批处理计算、流计算、图计算、查询分析计算)、每类计算模式典型的代表产品。大数据的4V特征规模性(volume)、多样性(variety)、价值密度(value)和高速性(velocity)大数据的类型结构化大数据:能够用数据或统一的结构加以表示的,如数字、符号。传统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。非结构化大数据:是指其字段

大家好,又见面了,我是你们的朋友全栈君。

一、大数据的基本概念

摘要:大数据基本概念考点:大数据的4V特征、类型(结构化与非结构化大数据)、核心技术(分布式存储和分布式处理)、大数据计算模式(批处理计算、流计算、图计算、查询分析计算)、每类计算模式典型的代表产品。

  • 大数据的4V特征
    规模性(volume)、多样性(variety)、价值密度(value)和高速性(velocity)
  • 大数据的类型
    结构化大数据:能够用数据或统一的结构加以表示的,如数字、符号。传统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。
    非结构化大数据:是指其字段长度可变,并且每隔字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本,图像,声音,影视,超媒体等信息)。
  • 核心技术
    分布式存储:是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
    分布式处理:是将不同地点的,或具有不同功能的,或拥有不同数据的多台计算机通过通信网络连接起来,在控制系统的统一管理控制下,协调地完成大规模信息处理任务的计算机系统。
  • 大数据计算模式
    (1)批处理计算:针对大规模数据的批量处理。主要技术:MapReduce(仅适合离线批处理)、Spark
    (2)流计算:针对流数据的实时计算处理。主要技术:Storm、Flume、Streams、Puma、DStream、S4、SuperMario、银河流数据处理平台。
    (3)图计算:针对大规模图结构数据的处理。主要技术:Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
    (4)查询分析计算:大规模数据的存储管理和查询分析。主要技术:Hive、Impala、Dremel、Cassandra等。

二、Hadoop框架基础理论

摘要:Hadoop特性、核心模块与相应的主要功能(HDFS分布式文件系统、MapReduce计算模型)。
(1)HDFS文件系统基本内容:体系结构、HDFS实现的目标与局限性、HDFS的NameNode和DataNode的功能与模块(NameNode:FsImage与EditLog;DataNode:数据存储与检索)。
(2)MapReduce计算模型基本内容:体系结构(Client、JobTracker、TaskTracker以及Task)、优势(容错性好、硬件要求低、编程难度低、使用场景多等)、设计策略(分而治之、计算向数据靠拢、Master/Slave架构)。
(3)Map/Reduce的输入/输出和工作流程:Input->Map->Reduce->Output。

  • Hadoop特性:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在LInux平台上、支持多种编程语言
    补充:Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群进行高速运算和存储。Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称 HDFS。
  • Hadoop核心模块及对应的主要功能
    (1)Hadoop Common 为其他Hadoop模块提供基础设施
    (2)Hadoop HDFS一个高效、高吞吐量的分布式文件系统
    (3)Hadoop MapReduce一个分布式的离线并行计算框架。将计算分为两个阶段:Map(并行处理输入的数据)和Reduce(对map结果进行汇总),shuffle连接Map和Reduce两个阶段,仅适合离线简单的批处理(高容错性和易扩展性),缺点是成本高、效率低。
    (4)Hadoop YARN任务调度与资源管理
  • HDFS文件系统基本内容
    (1)体系结构:主从结构
    1)NameNode:主节点 (职责是管理维护HDFS(主要维护两个文件:FsImage与EditLog):存放元数据信息,存储文件名称,文件属性,文件块列表,所在dn节点列表。)
    补充:
    FsImage保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。
    EditLog主要是在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录,HDFS客户端执行所有的写操作都会被记录到editlog中。
    2)DataNode:从节点(数据存储与检索)
    3)SecondaryNameNode:第二名称节点
    (2)HDFS的目标:故障检测和快速自动恢复
    (3)HDFS的局限性:
    1)实时的数据访问弱:由于存储量大,所以读取数据慢。
    2)大量小文件: 因为NameNode把文件系统的元数据放置在内存中,所以文件系统所能容纳的文件数目是由Namenode的内存大小来决定,影响性能,
    3)不支持多用户写入,任意修改文件:HDFS文件只能有一个写入者,写数据只能在文件末尾添加,不支持多用户写者,不支持数据写入后在文件任意位置修改。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/132858.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 多种方法彻底解决pycharm中: OSError: [WinError 1455] 页面文件太小,无法完成操作 的问题

    多种方法彻底解决pycharm中: OSError: [WinError 1455] 页面文件太小,无法完成操作 的问题目录1.重启pycharm(基本没啥用)2.把num_works设置为0(可能也没啥用)3.调大页面文件的大小(彻底解决问题)相信很多小伙伴在使用pycharm的时候都遇到这个问个报错问题吧,我是在跑PyTorch相关代码遇到的这个问题,也搜索了很多解决办法,这里介绍下我总结的经验.这是我搜索到的三种解决方法,依次来介绍下:1.重启pycharm(基本没啥用)这是最简单的方法了,可以先尝试一下,反正也很简单,不过如果你是第一次遇到这个问题,基本是解…

    2022年6月24日
    410
  • pyqt5环境配置_pyqt5 has no attribute version

    pyqt5环境配置_pyqt5 has no attribute version前言小编从c++qt5入坑,再到PyQt5,发现这个pycharm与PyQt5的配置也比较复杂(相对于c++qt5)这篇文章就记录下自己怎么配置成功的,万一以后需要用到,就可以直接查了。文中所用的软件版本PyCharm2021.1.3(ProfessionalEdition),如果有出入,注意变通其他:网上现存的教程安装的都是pyqt5-tools,而且他们的软件界面也不一样。配置目录如下所示,会配置3个:QTdesigner:方便首次新建一个不存在的.ui文件PyUIC:

    2022年8月27日
    4
  • 改变Ubuntu18.04初始键盘布局

    改变Ubuntu18.04初始键盘布局改变 Ubuntu18 04 初始键盘布局安装 Ubuntu 的时候把键盘布局选择成了英文 英国 然后键盘符号就是一团糟 把 打成 很是难受 然后在网上搜索都是依靠代码调出的图形界面来处理 结果重启之后键盘又恢复了原来的样式 可能不适合我的情况吧 自己摸索了以下 发现很简单 用不到那些代码 设置 gt 区域和语言在输入源里选择英语 英国 点击 再点击 选择英语 美

    2025年6月12日
    3
  • modis数据命名规则

    modis数据命名规则1. MOD是Terra星数据—-上午星;MYD是Aqua星数据—-下午星。2. Terra卫星原始数据命名规则>>>15位  A20040707140331.down                  A定义为Terra卫星;YYYY-MM-DD-HH-MM-SS(年-月-日-时-分-秒)

    2022年5月30日
    137
  • k8s的apiserver_kube_apiserver

    k8s的apiserver_kube_apiserverAPIserverfunc main() { … #核心 command := app.NewAPIServerCommand() #日志 logs.InitLogs() defer logs.FlushLogs() …}#NewAPIServerCommand#核心是调用run函数 运行AIPserver 永远不会退出return Run(completedOptions, genericapiserver.SetupSignalHandler())#Run#创建

    2022年8月9日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号