引言
Hadoop自从出现到现在被广泛应用,经理了很多个版本的衍化,甚至各个公司都在原生apache hadoop的基础上进行了一些改造以及特性优化,有些是完善了一整套的集群部署工具,在这衍化的过程中出现了Apache hadoop官方版本,还有很多第三方版本,例如Cloudera,Hortonworks,IBM,华为等提供的版本。那么这么多的版本,我们在进行学习开发或者生产环境部署的时候应该如何选择呢?
一、Apache Hadoop
二、CDH(Cloudera Distribution Hadoop)
- CDH3:http://archive.cloudera.com/cdh/3/
- CDH4: http://archive.cloudera.com/cdh4/cdh/4/
- CDH5:http://archive.cloudera.com/cdh5/cdh/5/
- CDH6:https://archive.cloudera.com/cdh6/
Hortonworks
IBM
IBM不提供只针对Hadoop的发行版,而是在原生hadoop的基础上进行了增强,例如增强了安全认证、作业调度等,采用Pig,Hive,HBase等技术开发了IBM的InfoSphere BigInsights大数据平台,一般面向IBM企业用户。
华为
华为在国内大数据领域也是走在前列的,其在Apache Hadoop的基础上利用本身的硬件能力进行了一些增强,例如故障自动Failover,增强HA功能等,其发布的版本为FusionInsight Hadoop。
总结
众多版本应该如何选择综上所述,Apache Hadoop原生版本以及Cloudera CDH版本无论在开源或者社区活跃度,学习资料等方面都位列前茅,如果是用来研究学习建议选择这两个版本,基于目前两者更新的版本已经较多的情况,建议直接选择Hadoop2.0之后的版本或者CDH4之后的版本进行学习。如果是用于生产环境部署,则可根据情况选择稳定的版本,或者选择Hortonworks可以使用ambari等管理工具较为方便地进行部署。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/214848.html原文链接:https://javaforall.net
