大数据建模与分析挖掘相关了解「建议收藏」

大数据建模与分析挖掘相关了解「建议收藏」一.大数据总体架构与规划二.各类数据的采集三.相关名词的了解MP:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)“和”Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Ma…

大家好,又见面了,我是你们的朋友全栈君。

一.大数据总体架构与规划

在这里插入图片描述

二.各类数据的采集

在这里插入图片描述

三.相关名词的了解

  1. MP:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)“和”Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。– 百度百科

    MP相关流程

在这里插入图片描述

  1. HDFS:HDFS(Hadoop Distributed File System),作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错高可靠性高可扩展性高获得性高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。

    大数据建模与分析挖掘相关了解「建议收藏」


    HDFS由四部分组成,HDFS Client、NameNode、DataNode和Secondary NameNode。
    HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。

HDFS客户端
1、提供一些命令来管理、访问 HDFS,比如启动或者关闭HDFS。
2、与 DataNode 交互,读取或者写入数据;读取时,要与 NameNode 交互,获取文件的位置信息;写入 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。

NameNode即Master,
1、管理 HDFS 的名称空间。
2、管理数据块(Block)映射信息
3、配置副本策略
4、处理客户端读写请求。

DataNode就是Slave。NameNode 下达命令,DataNode 执行实际的操作。
1、存储实际的数据块。
2、执行数据块的读/写操作。

Secondary NameNode并非 NameNode 的热备。当NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。
1、辅助 NameNode,分担其工作量。
2、定期合并 fsimage和fsedits,并推送给NameNode。
3、在紧急情况下,可辅助恢复 NameNode。


3.HA(High Available):高可用:CDH4 之前,在HDFS 集群中NameNode 存在单点故障(SPOF )。对于只有一个NameNode 的集群,如果NameNode 机器出现故障,那么整个集群将无法使用,直到NameNode 重新启动。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现。

​ NameNode 主要在以下两个方面影响HDFS 集群:
​ (1). NameNode 机器发生意外,比如宕机,集群将无法使用,直到管理员重启NameNode
​ (2). NameNode 机器需要升级,包括软件、硬件升级,此时集群也将无法使用

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/134182.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Navicat Premium 12连接Oracle时提示oracle library is not loaded的问题解决

    Navicat Premium 12连接Oracle时提示oracle library is not loaded的问题解决笔者使用的NavicatPremium12启动界面截屏:请注意是64位的。笔者win764位系统。连接Oracle时提示“oraclelibraryisnotloaded”。解决方法:1.前往“http://www.oracle.com/technetwork/database/database-te…

    2022年5月28日
    152
  • MinGW MinGW-w64 TDM-GCC等工具链之间的差别与联系「建议收藏」

    MinGW MinGW-w64 TDM-GCC等工具链之间的差别与联系

    2022年1月22日
    104
  • TiKV 源码解析系列文章(一)序

    TiKV 源码解析系列文章(一)序作者:唐刘TiKV是一个支持事务的分布式Key-Value数据库,有很多社区开发者基于TiKV来开发自己的应用,譬如titan、tidis。尤其是在TiKV成为CNCF的Sandbox项目之后,吸引了越来越多开发者的目光,很多同学都想参与到TiKV的研发中来。这时候,就会遇到两个比较大的拦路虎:Rust语言:众所周知,TiKV是使用Rust语言来进行开发…

    2022年9月16日
    2
  • 阿里云服务器端口开放访问不了_阿里云服务器能不能翻墙

    阿里云服务器端口开放访问不了_阿里云服务器能不能翻墙最近在自己写前端后端代码,然后部署在服务器上。在部署后端代码后发现通过域名访问不了该端口,正常情况下启动服务后就能访问,于是发现需要开放该端口。这里以阿里云的服务器为例:首先登录阿里云账号后,进入服务器管理页面。找到左侧的防火墙选项卡找到右侧的添加规则按钮点击后,应用类型选择自定义,然后填写端口范围,即你要公开访问的端口号,然后点击确定。以上步骤完成后,即可访问该端口…

    2022年10月2日
    2
  • java h2 数据库_H2数据库介绍「建议收藏」

    java h2 数据库_H2数据库介绍「建议收藏」一、H2数据库简介1、H2数据库是一个开源的关系型数据库。H2是一个嵌入式数据库引擎,采用java语言编写,不受平台的限制,同时支持网络版和嵌入式版本,有比较好的兼容性,支持相当标准的sql标准,支持集群2、提供JDBC、ODBC访问接口,提供了非常友好的基于web的数据库管理界面二、在Java中操作H2数据库1、以嵌入式(本地)连接方式连接H2数据库这种连接方式默认情况下只允许有一个客户端连接到…

    2022年10月12日
    2
  • DOS攻击手段_ddos攻击原理与防御方法

    DOS攻击手段_ddos攻击原理与防御方法DDoS介绍DDoS是英文DistributedDenialofService的缩写,意即“分布式拒绝服务”,那么什么又是拒绝服务(DenialofService)呢?可以这么理解,凡是能导致合法用户不能够访问正常网络服务的行为都算是拒绝服务攻击。也就是说拒绝服务攻击的目的非常明确,就是要阻止合法用户对正常网络资源的访问,从而达成攻击者不可告人的目的。分布式拒绝服务攻击一旦被实施,攻击网络包就会从很多DOS攻击源(俗称肉鸡)犹如洪水般涌向受害主机,从而把合法用户的网络包淹没,导致合法用户无法正

    2022年10月1日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号