Spark1.0.0 开发环境高速搭建

Spark1.0.0 开发环境高速搭建

大家好,又见面了,我是全栈君。

      在本系列博客中。为了解析一些概念、解析一些架构、代码測试。搭建了一个实验平台。例如以下图所看到的:
Spark1.0.0 开发环境高速搭建

 

      本实验平台是在一台物理机上搭建的。物理机的配置是16G内存,4核8线程CPU。

平台的环境配置例如以下:

 机器名  配置  角色  软件安装
 hadoop1  2G内存。双核  hadoop:NN/DN Spark:Master/worker  /app/hadoop/hadoop220

/app/hadoop/spark100
/app/scala2104
/usr/java/jdk1.7.0_21
 hadoop2  2G内存。双核  hadoop:DN Spark:worker  /app/hadoop/hadoop220

/app/hadoop/spark100
/app/scala2104
/usr/java/jdk1.7.0_21
 hadoop3  2G内存。双核  hadoop:DN Spark:worker  /app/hadoop/hadoop220

/app/hadoop/spark100
/app/scala2104
/usr/java/jdk1.7.0_21
 wyy  16G内存,四核  client  /app/hadoop/hadoop220
以上hadoop和spark安装文件夹的用户属性都是hadoop(组别为hadoop)。其它的安装文件夹的用户属性是root:root。

      实验平台搭建顺序
1:虚拟集群的搭建
A:hadoop2.2.0集群搭建
或者參看视频
http://pan.baidu.com/s/1qWqFY4c 提取password:xv4i
B:Spark1.0.0 Standalone集群搭建

2:开发端的搭建
      client採用的Ubuntu操作系统。而Spark虚拟集群採用的是CentOS。默认的java安装文件夹两个操作系统是不一样的,所以在Ubuntu下安装java的时候特意将java的安装路径改成和CentOS一样。不然的话,每次scp了虚拟集群的配置文件之后,要改动hadoop-env.sh中的java配置。
      clienthadoop2.2.0和Spark1.0.0是直接从虚拟集群中scp出来的。放置在同样的文件夹下,拥有同样的用户属性。
      开发用的IDE採用IntelliJ IDEA。项目的搭建參见博客
使用IntelliJ IDEA开发Spark1.0.0应用程序

      应用程序的部署和调试參见博客
应用程序部署工具spark-submit

3:实验数据来源
      实验用的数据来源于搜狗实验室下载地址为:
http://download.labs.sogou.com/resources.html?v=1
  • 互联网语料库(SogouT)
  • 网页搜索结果评价(SogouE)
  • 链接关系库(SogouT-Link)
  • SogouRank库(SogouT-Rank)
  • 用户查询日志(SogouQ)
  • 互联网词库(SogouW)

4:伪分布式实验平台搭建
      上面的实验平台是将hadoop集群、Spark集群和开发环境分离,更接近生产系统;但非常多朋友的物理机配置可能偏低,那样的话能够採用伪分布式部署。但伪分布式会有一些缺陷:
  • spark的数据本地性不易測试
  • 对于并行性不易理解
  • job调度不易理解
      至于伪分布式的部署非常easy,步骤和虚拟集群搭建差点儿相同,仅仅要改动两个地方:
  • ssh无password登陆仅仅须要ssh一下本机
  • hadoop和spark的配置文件salves改动成本机机器名

5:调试工具
  • 日志配置(尚未撰写博客。近期写完补上链接)
  • history server配置
  • job server配置(尚未撰写博客。近期写完补上链接)



版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/115373.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java小型图书馆管理系统

    java小型图书馆管理系统根据需求,建立了一个BookMgr类,该类为实现小型图书馆的各个需求。为了和用户有一个良好的交互,根据需求且满足要求中的隐藏条件,先命名了交互的菜单函数printMenu1(),代码如下:publicvoidprintMenu1(){          System.out.println(“欢迎使用图书馆管理系统”);          Syst

    2022年7月8日
    23
  • Elasticsearch索引迁移的四种方式

    Elasticsearch索引迁移的四种方式本文主要讲解Elasticsearch下实现索引迁移的几种方式。0、引言将ES中的索引拷贝到其他ES中,或者将ES整体迁移,研究发现有两个开源的工具:elaticserch-dump和Elasticsearch-Exporter。除此之外,logstash在索引同步、迁移方面的作用也很大。两工具及logstash实现迁移的介绍、安装、使用、验证效果等展示如下:1、el…

    2022年5月29日
    111
  • pycharm企业版激活码[最新免费获取]

    (pycharm企业版激活码)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~S…

    2022年3月25日
    101
  • rabbitmq使用mqtt协议[通俗易懂]

    rabbitmq使用mqtt协议[通俗易懂]提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、rabbitmq是什么?二、mqtt协议是什么?三、使用步骤1.引入库2.读入数据总结前言在网上学习物联网,发现有人可以用springboot+rabbitmq可以搭建物联网(IOT)平台,rabbitmq不是消息队列吗,原来rabbitmq有两种协议,消息队列是用的AMQP协议,而用在智能硬件中的是MQTT协议。一、rabbitmq是什么?示例:pandas是基于NumPy的一种工具,该工具是为了解

    2022年10月3日
    5
  • android gridview控件使用详解_android tablelayout

    android gridview控件使用详解_android tablelayoutfrom:http://blog.csdn.net/weich_java/article/details/6987198笔者在用GridView时发现GridView的selectstyle会根据系统而不同,因为在客户端中一边具有统一的显示风格,所以尝试了下指定GridView的选中样式。首先看一下代码:menu.xmlandroid:layout_width=”fill_parent”andr…

    2022年9月25日
    1
  • 字符串模式匹配bf算法_字符串排列组合算法

    字符串模式匹配bf算法_字符串排列组合算法字符串匹配【问题描述】对于字符串S和T,若T是S子串,返回T在S中的位置(T的首字符在S中对应的下标),否则返回-1.【问题求解】采用直接穷举法求解,称为BF算法。该算法从S的每一个字符开始查找,看T是否会出现。例如,S=“aababcde”,T=“abcd”:…

    2022年8月21日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号