MapReduce编程快速入门

MapReduce编程快速入门MapReduce编程规范用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)Mapper阶段继承Mapper类(1)用户自定义的Mapper要继承自己的父类(2)Mapper的输入数据是KV对的形式(KV的类型可自定义)(3)Mapper中的业务逻辑写在map()方法中(4)Mapper的输出数据是KV对的形式(KV的类型可自定义)(5)map()方法(maptask进程)对每一个<K,V>调用一次Reducer阶段继承Reduce

大家好,又见面了,我是你们的朋友全栈君。

MapReduce编程规范

用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)

Mapper阶段继承Mapper类

(1)用户自定义的Mapper要继承自己的父类
(2)Mapper的输入数据是KV对的形式(KV的类型可自定义)
(3)Mapper中的业务逻辑写在map()方法中
(4)Mapper的输出数据是KV对的形式(KV的类型可自定义)
(5)map()方法(maptask进程)对每一个<K,V>调用一次

Reducer阶段继承Reducer类

(1)用户自定义的Reducer要继承自己的父类
(2)Reducer的输入数据类型对应Mapper的输出数据类型,也是KV
(3)Reducer的业务逻辑写在reduce()方法中
(4)Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法

Driver阶段使用Driver模板

整个程序需要一个Drvier来进行提交,提交的是一个描述了各种必要信息的job对象

案例实操

1.需求分析

在给定的文本文件中统计输出每一个单词出现的总次数
(1)输入数据 hello.txt

dev1 dev1
ss ss
cls cls
jiao
banzhang
xue
hadoop

(2)期望输出数据

dev1     2
banzhang    1
cls    2
hadoop    1
jiao    1
ss    2
xue    1

2.开发步骤

按照MapReduce编程规范,分别编写Mapper,Reducer,Driver

》》1输入数据

hadoop hdfs 
mr mr

》》2输出数据

hadoop 1
hdfs 1
mr 2

》》3 Mapper
3.1 将MapTask传给我们的文本内容先转换成String
3.2 根据空格将这一行切分成单词
3.3 将单词输出为<单词,1>
》》4 Reducer
4.1 汇总各个key的个数
4.2 输出该key的总次数
》》5 Driver
5.1 获取配置信息,获取job对象实例
5.2 指定本程序的jar所在的路径
5.3 关联Mapper/Reducer的业务类
5.4 指定Mapper输出数据的kv类型
5.5 指定最终输出的数据的kv类型
5.6 指定job的输入原始文本所在目录
5.7 指定job的输出结果所在目录
5.8 提交作业

3 项目搭建

(1)Idea 创建maven工程
在这里插入图片描述

(2)在pom.xml文件中添加如下依赖

<dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.8.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.2</version>
        </dependency>
</dependencies>

(2)在项目的resources目录下,新建一个文件,命名为”log4j.properties”,在文件中填入。
在这里插入图片描述

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

4.编写程序

(1)编写Mapper类

package com.dev1.wordcount;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ 
   
    
    Text k = new Text();
    IntWritable v = new IntWritable(1);
    
    @Override
    protected void map(LongWritable key, Text value, Context context)    throws IOException, InterruptedException { 
   
        
        // 1 获取一行
        String line = value.toString();
        
        // 2 切割
        String[] words = line.split(" ");
        
        // 3 输出
        for (String word : words) { 
   
            Text k = new Text();
            k.set(word);
            context.write(k, v);
        }
    }
}

(2)编写Reducer类

package com.dev1.wordcount;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{ 
   

int sum;
IntWritable v = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException { 
   
        
        // 1 累加求和
        sum = 0;
        for (IntWritable count : values) { 
   
            sum += count.get();
        }
        
        // 2 输出
       v.set(sum);
        context.write(key,v);
    }
}

(3)编写Driver驱动类

package com.dev1.wordcount;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordcountDriver { 
   

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { 
   

        // 1 获取配置信息以及封装任务
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);

        // 2 设置jar加载路径
        job.setJarByClass(WordcountDriver.class);

        // 3 设置map和reduce类
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);

        // 4 设置map输出
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 5 设置最终输出kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
        // 6 设置输入和输出路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 7 提交
        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);
    }
}

5.本地测试
在这里插入图片描述

(1 )如果电脑系统是win7的就将win7的hadoop jar包解压
如果电脑系统是win10的就将win10的hadoop jar包解压

注意: 1 win8电脑和win10家庭版操作系统可能有问题,需要重新编译源码或者更改操作系统。 2 非中文,无空格路径

(2)在Eclipse/Idea上运行程序
运行前必须设置参数
在这里插入图片描述
在图中给定两个路径
在这里插入图片描述

6.集群上测试
(0)用maven打jar包,需要添加的打包插件依赖
注意:标记红颜色的部分需要替换为自己工程主类

<build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin </artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>com.dev1.wordcout.WordcountDriver</mainClass>
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

(1)将程序打成jar包。
在这里插入图片描述

修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群。
(2)启动Hadoop集群
在hadoop102上

start dfs.sh

在hadoop103上

start-yarn.sh

(3)上传文本文件到 input文件夹

hdfs dfs -mkdir -p /user/dev1/input
cd /opt/module/hadoop-2.7.2
hdfs dfs -put   ./words.txt  /user/dev1/input

input文件夹下只能有文本文件
(4)执行WordCount程序

hadoop jar  wc.jar com.dev1.wordcount.WordcountDriver /user/dev1/input /user/dev1/output
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/149234.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月16日 下午11:30
下一篇 2022年6月16日 下午11:30


相关推荐

  • spring cloud 入门系列二:使用Eureka 进行服务治理「建议收藏」

    服务治理可以说是微服务架构中最为核心和基础的模块,它主要用来实现各个微服务实例的自动化注册和发现。SpringCloudEureka是SpringCloudNetflix微服务套件的一部分

    2022年2月16日
    42
  • java中打印数组的方法_Java数组方法–如何在Java中打印数组

    java中打印数组的方法_Java数组方法–如何在Java中打印数组java中打印数组的方法Anarrayisadatastructureusedtostoredataofthesametype.Arraysstoretheirelementsincontiguousmemorylocations.数组是用于存储相同类型数据的数据结构。数组将其元素存储在连续的内存位置中。InJava,arraysareo…

    2022年6月3日
    36
  • 爬虫之上传文件,request如何上传文件

    爬虫之上传文件,request如何上传文件

    2022年2月20日
    105
  • ADB常用命令大全

    ADB常用命令大全命令参数功能 adbdevices 列出当前连接的设备列表 adbserver strat 启动 adb 服务 adbkill server 停止 adb 服务 adbconnect 如果是 USB 连接 直接会连接 ADB 如果是想通过网络连接 则需要在同一个局域网 通过 IP 连接 adbdisconnec 断开连接设备 adbinstall 安装 APP 如果 apk 已安装 则覆盖安装 r 如果 apk 已安装 则重

    2026年3月16日
    1
  • 海思Hi3798处理器参数,Hi3798芯片详细信息介绍「建议收藏」

    海思Hi3798处理器参数,Hi3798芯片详细信息介绍「建议收藏」Hi3798CV200集成4核64位高性能CortexA53处理器、内置NEON加速引擎,强大的CPU处理能力可以满足各种差异化的业务需求。在码流兼容性、在线视频播放的流畅性、图像质量以及整机性能方面保持业界最好的用户体验。支持4K2KP60@10bit超高清视频解码和显示,支持H.265/HEVC、H.264/AVC、AVS+、MVC、MPEG2、MPEG4、VC-1、VP6、VP…

    2022年6月30日
    628
  • AUC计算公式推导

    AUC计算公式推导AUC 计算公式推导基本公式推算基本排名的公式推算 2 详解如何计算 AUC 计算 AUC 时 推荐 2 个方法 方法一 在有 M 个正样本 N 个负样本的数据集里 一共有 MN 对样本 一对样本即 一个正样本与一个负样本 统计这 MN 对样本里 正样本的预测概率大于负样本的预测概率的个数 其中 这样说可能有点抽象 我举一个例子便能够明白 IDlabelproA0 1B00 4C10 35D10 8 假设有 4 条样本 2 个正样本 2 个负样本 那么

    2026年3月26日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号