大数据建模与分析挖掘相关了解「建议收藏」

大数据建模与分析挖掘相关了解「建议收藏」一.大数据总体架构与规划二.各类数据的采集三.相关名词的了解MP:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)“和”Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Ma…

大家好,又见面了,我是你们的朋友全栈君。

一.大数据总体架构与规划

在这里插入图片描述

二.各类数据的采集

在这里插入图片描述

三.相关名词的了解

  1. MP:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)“和”Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。– 百度百科

    MP相关流程

在这里插入图片描述

  1. HDFS:HDFS(Hadoop Distributed File System),作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错高可靠性高可扩展性高获得性高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。

    大数据建模与分析挖掘相关了解「建议收藏」


    HDFS由四部分组成,HDFS Client、NameNode、DataNode和Secondary NameNode。
    HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。

HDFS客户端
1、提供一些命令来管理、访问 HDFS,比如启动或者关闭HDFS。
2、与 DataNode 交互,读取或者写入数据;读取时,要与 NameNode 交互,获取文件的位置信息;写入 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。

NameNode即Master,
1、管理 HDFS 的名称空间。
2、管理数据块(Block)映射信息
3、配置副本策略
4、处理客户端读写请求。

DataNode就是Slave。NameNode 下达命令,DataNode 执行实际的操作。
1、存储实际的数据块。
2、执行数据块的读/写操作。

Secondary NameNode并非 NameNode 的热备。当NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。
1、辅助 NameNode,分担其工作量。
2、定期合并 fsimage和fsedits,并推送给NameNode。
3、在紧急情况下,可辅助恢复 NameNode。


3.HA(High Available):高可用:CDH4 之前,在HDFS 集群中NameNode 存在单点故障(SPOF )。对于只有一个NameNode 的集群,如果NameNode 机器出现故障,那么整个集群将无法使用,直到NameNode 重新启动。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现。

​ NameNode 主要在以下两个方面影响HDFS 集群:
​ (1). NameNode 机器发生意外,比如宕机,集群将无法使用,直到管理员重启NameNode
​ (2). NameNode 机器需要升级,包括软件、硬件升级,此时集群也将无法使用

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134182.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月7日 上午9:36
下一篇 2022年6月7日 上午9:46


相关推荐

  • pycharm新建anaconda_anaconda怎么创建虚拟环境

    pycharm新建anaconda_anaconda怎么创建虚拟环境在anaconda中已经有了一个比较全的环境,希望在Pycharm中使用,但百度后发现网上的一些方法已经在新版Pycharm中不一样的,在此记录下:File->Settings->Project:[当前项目名称]单击设置图标,然后选择【Add…】然后就是定位到anaconda中已有环境的python.exe所在目录了假设环境名称是tensorflow,一般路径是:C:\Users\…

    2022年8月27日
    8
  • HTTP 401 错误 – 未授权 终极解决办法

    HTTP 401 错误 – 未授权 终极解决办法401 最根本就是用户权限未授予导致的代码无执行权限而失效或出错 一句话就是赋权 但是赋权又面临着可能的安全问题 在正常代码下突然出现的 401 那就不是赋权可以解决了 或者说再重复赋权可以正常的 但是每执行一次都需要重复赋权一次肯定就是大问题了 401 1 未经授权 访问由于凭据无效被拒绝 401 2 未经授权 访问由于服务器配置倾向使用替代身份验证方法而被拒绝 401 3

    2026年3月16日
    1
  • C语言练习之计算存款利息

    C语言练习之计算存款利息计算存款利息 有 1000 元 想存一年 有三种方法可选择 1 活期 年利率为 r1 2 一年期定期 年利率为 r2 3 存两次半年定期 年利率为 r3 请分别计算出一年后按 3 种方法所得到的本息和

    2026年2月12日
    2
  • 下列选项中不符合python语言变量命名_以下变量名中,不符合Python语言变量命名规则的是…[通俗易懂]

    下列选项中不符合python语言变量命名_以下变量名中,不符合Python语言变量命名规则的是…[通俗易懂]摘要:备结械设在机中构可要点设计靠性,下语本出品可高产的根全型路和安是提靠性。名中命名不属标志别划目的品分的类常用于《危险类及化学分项是(。包括品中中不毒、符合措施预防危险污染化学事故控制。…备结械设在机中构可要点设计靠性,下语本出品可高产的根全型路和安是提靠性。》颁布了条例险化学品险化学品许可证管管理经营(第安全依据《危《危理办号令法》,变量不变量品经加强的管营许为了危险理化学可证。名中命名…

    2022年6月11日
    37
  • Anaconda+PyQt5+PyCharm开发并生成.exe可执行文件[通俗易懂]

    Anaconda+PyQt5+PyCharm开发并生成.exe可执行文件[通俗易懂]一、安装Anaconda软件二、安装PyCharm软件三、安装PyQt5Anaconda软件自带PyQt,但是安装不完整,开发时可能会遇到问题。因此,最好自己重新完整安装一遍。1.打开AnacondaPrompt终端界面2.安装pyqt5输入以下命令安装:pipinstallpyqt5如果以上命令安装不成功的话使用镜像安装,执行命令:pipinsta…

    2022年8月28日
    5
  • 举例说明随机函数的应用python_Python生成50个随机数

    举例说明随机函数的应用python_Python生成50个随机数摘要:下文讲述Python代码中seed()函数的简介说明,如下所示:seed()函数功能用于改变随机数生成器的种子,常用于其它随机函数之前运行此函数seed()函数语法seed.seed([x])———参数说明—-x:任意数字———返回值说明—-无返回值seed()函数注意事项:1.使用seed()函数需引入包random(importrandom)2.设置随…

    2025年5月28日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号