大数据综述

功能	框架
数据采集	●flume ●kafka ●logstash ●filebeat
数据存储	●redis ●mongdb ●hbase ●hdfs
数据查询	●hive ●impala ●elasticsearch ●kylin ●clickhouse
数据计算	实时计算(流式计算) ●storm ●spark streaming ●flink 离线计算 ●hadoop ●spark
数据传递转换	●Sqoop（主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递）

Lambda架构

从底层的数据源开始，通过Kafka、Flume等大数据组件，将各种各样的数据同步到大数据平台，然后分成两条线进行计算。一条线进入离线批量数据处理平台（Spark、Hive、MapReduce等），去计算T+1或者H+1的业务指标，这些指标需要T+1或者H+1才能看到；另外一条线是进入到实时数据处理平台（Flink、SparkStreaming等），去计算实时统计指标。

大数据综述

大数据框架对比

Hadoop对比Storm

●Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；

Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。

●Hadoop M/R基于HDFS，需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等，效率较低。

Storm 基于ZeroMQ这个高性能的消息通讯库，不持久化数据。

●两者面向的领域也不完全相同，一个是批量处理，基于任务调度的；另外一个是实时处理，基于流。

Hadoop对比Spark

Spark仅仅是计算框架，不包含存储，对比的应该是MapReduce。

●MapReduce和Spark的主要区别在于，MapReduce使用持久存储，而Spark使用弹性分布式数据集(RDDS)。

●MapReduce是批处理框架，而Spark支持流式。

●Spark易用性要好。

Storm对比Spark Streaming

大数据综述

Flume对比Kafka

●kafka和flume都是日志系统。kafka是分布式消息中间件，自带存储，提供push和pull存取数据功能。

●kafka做日志缓存应该是更为合适的，但是 flume的数据采集部分做的很好，可以定制很多数据源，减少开发量。所以比较流行flume+kafka模式，如果为了利用flume写hdfs的能力，也可以采用kafka+flume的方式。

●Flume 是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API.

Hadoop集群的5大管理工具

当你利用Hadoop进行大数据分析和处理时，首先你需要确保配置、部署和管理集群。这个即不容易也没有什么乐趣，但却受到了开发者们的钟爱。本文提供了5款工具帮助你实现。

Apache Ambari

Apache Ambari是对Hadoop进行监控、管理和生命周期管理的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。Ambari向Hadoop MapReduce、HDFS、 HBase、Pig, Hive、HCatalog以及Zookeeper提供服务。

Apache Mesos

Apache Mesos是集群管理器，可以让用户在同一时间同意集群上运行多个Hadoop任务或其他高性能应用。Twitter的开放源代码经理Chris Aniszczyk表示，Mesos可以在数以百计的设备上运行，并使其更容易执行工作。

Platform MapReduce

Platform MapReduce提供了企业级可管理性和可伸缩性、高资源利用率和可用性、操作便利性、多应用支持以及一个开放分布式系统架构，其中包括对于Hadoop分布式文件系统（HDFS）和Appistry Cloud IQ的即时支持，稍后还将支持更多的文件系统和平台，这将确保企业更加关注将MapReduce应用程序转移至生产环境中。

StackIQ Rocks+ Big Data

StackIQ Rock+ Big Data是一款Rocks的商业流通集群管理软件，该公司已加强支持Apache Hadoop。Rock+支持Apache、Cloudera、Hortonworks和MapR的分布，并且处理从裸机服务器来管理Hadoop集群配置的整个过程。

Zettaset Orchestrator

Zettaset Orchestrator是端到端的Hadoop管理产品，支持多个Hadoop的分布。Zettaset吹捧Orchestrator的基于UI的经验和MAAPS（管理、可用性、自动化、配置和安全）的处理能力。

数据可视化

大数据综述

协同过滤

1、基于用户的协同过滤

算法思想

基于用户的协同过滤算法（UserCF算法）是推荐系统中最古老的。

（1）找到和目标用户兴趣像素的用户集合；

（2）找到该集合中用户所喜欢的、且目标用户没有听说过的物品推荐给目标用户。

计算用户相似度

相似度算法：

泊松相关系数
余弦相似度
调整余弦相似度

2、基于物品的协同过滤

算法思想

简称ItemCF:

（1）计算物品之间的相似度；

（2）根据物品的相似度和用户的历史行为，给用户生成推荐列表。

UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品，ItemCF算法则推荐那些和目标用户之前喜欢的物品类似的其他物品。

UserCF算法适合用于新闻推荐、微博话题等，单随着用户数量增大，计算用户相似度越来越困难，时间和空间复杂度与用户增长近似于平方关系。

ImteCF在电子商务、电影、图书等应用场景中，可以利用用户的历史行为给推荐结果做出解释。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/200310.html原文链接：https://javaforall.net

大数据综述

大数据概述

大数据涉及的技术

Google大数据技术

数据计算类型

大数据技术板块

Lambda架构

大数据框架对比

Hadoop对比Storm

Hadoop对比Spark

Storm对比Spark Streaming

Flume对比Kafka

相关技术拓展

NoSQL

分布式计算框架Flink

大数据处理神器Beam （Dataflow）

Hadoop集群的5大管理工具

数据可视化

协同过滤

关于作者

全栈程序员-站长

发表回复

大数据综述

大数据概述

大数据涉及的技术

Google大数据技术

数据计算类型

大数据技术板块

Lambda架构

大数据框架对比

Hadoop对比Storm

Hadoop对比Spark

Storm对比Spark Streaming

Flume对比Kafka

相关技术拓展

NoSQL

分布式计算框架Flink

大数据处理神器Beam （Dataflow）

Hadoop集群的5大管理工具

数据可视化

协同过滤

关于作者

全栈程序员-站长

相关推荐

程序员15k什么水平_初级码农

.gitignore 不起作用

opennebula kvm 创建VM oned报错日志

pip安装scrapy失败_scrapy框架运行

定点数和浮点数加减乘除运算详解【计算机组成原理】—真的建议收藏啊！！！

django1.8_django开发restapi

发表回复