Alex 的 Hadoop 菜鸟教程: 第17课 更快速的MapReduce – Spark「建议收藏」

Alex 的 Hadoop 菜鸟教程: 第17课 更快速的MapReduce – Spark「建议收藏」Spark是Apache的顶级项目。项目背景是Hadoop的MapReduce太挫太慢了,于是有人就做了Spark,目前Spark声称在内存中比Hadoop快100倍,在磁盘上比Hadoop快10倍。

大家好,又见面了,我是你们的朋友全栈君。

原文地址: http://blog.csdn.net/nsrainbow/article/details/43735737  最新课程请关注原作者博客,获得更好的显示体验

声明

  • 本文基于Centos6.x + CDH 5.x

Spark是什么

Spark是Apache的顶级项目。项目背景是 Hadoop 的 MapReduce 太挫太慢了,于是有人就做了Spark,目前Spark声称在内存中比Hadoop快100倍,在磁盘上比Hadoop快10倍。

安装Spark

spark有5个组件

  • spark-core: spark核心包
  • spark-worker: spark-worker用的脚本
  • spark-master: spark-master用的脚本
  • spark-python: Spark的Python客户端
  • spark-history-server: 任务历史服务
开始安装Spark

安装组件包

我挑选host1作为master 和 worker,所以在host1上安装以下包

sudo yum install spark-core spark-master spark-worker spark-python

host2 作为 history-server 和 worker

sudo yum install spark-core spark-worker spark-history-server spark-python

配置Spark

Spark支持两种模式

  • 独立模式:  在独立模式, Spark使用一个 Master 服务来运行任务。
  • YARN模式: 在YARN模式, YARN ResourceManager 代替了Spark Master。Job还是由NodeManager运行。YARN 模式搭建会比较复杂,但是它支持安全机制,并且跟YARN集群的配合更好。

本教程中使用独立模式

编辑每一台安装了Spark机器上的 /etc/spark/conf/spark-env.sh 修改master所在机器的机器名,在这个教程中就是host1

###### === IMPORTANT ===### Change the following to specify a real cluster‘s Master host###export STANDALONE_SPARK_MASTER_HOST=‘host1‘

注意: 包裹host1的符号也要换成单引号


创建Spark History Server需要的hdfs文件夹 /user/spark/applicationHistory/
$ sudo -u hdfs hadoop fs -mkdir /user/spark $ sudo -u hdfs hadoop fs -mkdir /user/spark/applicationHistory $ sudo -u hdfs hadoop fs -chown -R spark:spark /user/spark$ sudo -u hdfs hadoop fs -chmod 1777 /user/spark/applicationHistory

在Spark客户端,在本例中就是host2,创建一份新的配置文件

cp /etc/spark/conf/spark-defaults.conf.template /etc/spark/conf/spark-defaults.conf

把下面这两行增加到/etc/spark/conf/spark-defaults.conf 里面去

spark.eventLog.dir=/user/spark/applicationHistory
spark.eventLog.enabled=true

在所有的机器上复制hdfs-site.xml到 /etc/spark/conf 下

cp /etc/hadoop/conf/hdfs-site.xml /etc/spark/conf/

启动Spark

在host1上启动master服务

sudo service spark-master start

在其他节点上启动woker服务,本教程中就是 host1 和 host2

sudo service spark-worker start

在其中一个节点上启动history服务,本教程中用host2启动history

sudo service spark-history-server start

启动顺序

  1. master
  2. worker
  3. history-server
打开浏览器访问 http://host1:18080 可以看到Spark的管理界面

Alex 的 Hadoop 菜鸟教程: 第17课 更快速的MapReduce - Spark「建议收藏」

使用Spark

使用 spark-shell 命令进入spark shell

[root@host1 impala]# spark-shell2015-02-10 09:02:07,059 INFO  [main] spark.SecurityManager (Logging.scala:logInfo(59)) - Changing view acls to: root2015-02-10 09:02:07,069 INFO  [main] spark.SecurityManager (Logging.scala:logInfo(59)) - Changing modify acls to: root2015-02-10 09:02:07,070 INFO  [main] spark.SecurityManager (Logging.scala:logInfo(59)) - SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(root); users with modify permissions: Set(root)2015-02-10 09:02:07,072 INFO  [main] spark.HttpServer (Logging.scala:logInfo(59)) - Starting HTTP Server2015-02-10 09:02:07,217 INFO  [main] server.Server (Server.java:doStart(272)) - jetty-8.y.z-SNAPSHOT2015-02-10 09:02:07,350 INFO  [main] server.AbstractConnector (AbstractConnector.java:doStart(338)) - Started SocketConnector@0.0.0.0:590582015-02-10 09:02:07,352 INFO  [main] util.Utils (Logging.scala:logInfo(59)) - Successfully started service ‘HTTP class server‘ on port 59058.Welcome to      ____              __     / __/__  ___ _____/ /__    _\ \/ _ \/ _ `/ __/  ‘_/   /___/ .__/\_,_/_/ /_/\_\   version 1.2.0      /_/Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_25)...2015-02-10 09:02:21,572 INFO  [main] storage.BlockManagerMaster (Logging.scala:logInfo(59)) - Registered BlockManager2015-02-10 09:02:22,472 INFO  [main] scheduler.EventLoggingListener (Logging.scala:logInfo(59)) - Logging events to file:/user/spark/applicationHistory/local-14235301409862015-02-10 09:02:22,672 INFO  [main] repl.SparkILoop (Logging.scala:logInfo(59)) - Created spark context..Spark context available as sc.scala> 

我们来开始玩一下Spark。还是做之前用YARN做的wordcount任务,看看Spark如何完成这项任务。

STEP1

创建测试文本

$ echo "Hello World Bye World" > file0
$ echo "Hello Hadoop Goodbye Hadoop" > file1
$ hdfs dfs -mkdir -p /user/spark/wordcount/input
$ hdfs dfs -put file* /user/spark/wordcount/input

STEP2

进入 spark-shell 运行 wordcount任务脚本

val file = sc.textFile("hdfs://mycluster/user/spark/wordcount/input")
val counts = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://mycluster/user/spark/wordcount/output")

这回不用写java代码了,简单了好多。这里用的是Scala语言。

Spark支持 Java, Scale, Python 三种语言,但是对Scala的支持最全,建议开始用java来写,后期还是熟悉下Scala比较好。

STEP3

我们去看下结果,我用Pig看下结果

grunt> ls
hdfs://mycluster/user/spark/wordcount/input <dir>
hdfs://mycluster/user/spark/wordcount/output    <dir>
grunt> cd output
grunt> ls
hdfs://mycluster/user/spark/wordcount/output/_SUCCESS<r 2>  0
hdfs://mycluster/user/spark/wordcount/output/part-00000<r 2>    8
hdfs://mycluster/user/spark/wordcount/output/part-00001<r 2>    10
hdfs://mycluster/user/spark/wordcount/output/part-00002<r 2>    33
grunt> cat part-00000
(Bye,1)
grunt> cat part-00001
(World,2)
grunt> cat part-00002
(Goodbye,1)
(Hello,2)
(Hadoop,2)

更深入的学习请看手册
Spark Programming Guide , 另外这个手册写的真不错。

参考资料

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/143745.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 地理加权回归模型案例_地理加权回归不能用哑变量

    地理加权回归模型案例_地理加权回归不能用哑变量目前,GWR已经成为处理空间异质性的主要方法之一。与经典的全局回归模型的OLS不同,GWR是局部回归模型,模型系数是通过观测周围的样本来回归得到。在这里插入图片描述

    2022年9月1日
    3
  • 半小时一篇文过完C语言基础知识点[通俗易懂]

    半小时一篇文过完C语言基础知识点[通俗易懂]本文定位读者为小白读者,将使用最快的方法学完C语言,并且制作一个学生管理系统。由于是速成的方法,本文不会描述过多的其它知识,大部分知识点只是描述了如何进行使用,如何深入还需要各位努力;不过学习过了一遍内容后,学习起来也会较为容易。环境:系统:windows7IDE:Devc面向读者:小白一、HelloWorldHelloWorld是经典的编程入门程序,指在编写代码生成程序,运行该程序将会在程序中显示HelloWorld。以下是一个HelloWorld的C语言代码:#include&

    2022年9月21日
    3
  • clion永久激活码2021_在线激活

    (clion永久激活码2021)JetBrains旗下有多款编译器工具(如:IntelliJ、WebStorm、PyCharm等)在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上,过去15年以来,JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

    2022年3月21日
    234
  • React saga_react获取子组件ref

    React saga_react获取子组件ref前言React的作用View层次的前端框架,自然少不了很多中间件(ReduxMiddleware)做数据处理,而redux-saga就是其中之一,目前这个中间件在网上的资料还是比较少,估计应用的不是很广泛,但是如果使用得当,将会事半功倍的效果,下面仔细介绍一个这个中间件的具体使用流程和应用场景。redux-saga简介Redux-saga是Redux的一个中间件,主要集中处理rea…

    2025年11月30日
    5
  • Linux重启nodejs

    Linux重启nodejs想要重启nodeserver进入相应的项目执行npmstop发现没用server仍然在,于是要杀掉相应进程1、ps-ef|grepnode查看node对应的pid,然后killpid,再进入对应项目npmstart2、如果以上方法不行可以这样:killnode或者kilallnode

    2022年10月18日
    2
  • pycharm+PyQt5+python最新开发环境配置,踩坑过程详解

    pycharm+PyQt5+python最新开发环境配置,踩坑过程详解安装工具 Pycharm 专业版 2017 3PyQT5python 测试工程文件及所需工具 下载 1 首先安装 Pycharm 先前一篇介绍安装激活成功教程版的可以参考 http www roselady vip a cangjingge boke 2018 0204 685 html2 新建一个空的 python 工程 找到 setting 安装第三方模块 PyQT5 点加号 先安 PyQT5 再安装 pyqt5 t

    2025年9月28日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号