FileInputFormat

FileInputFormat最顶级是InputFormat抽象类,该类定义了两个方法,方法getSplits是负责切分输入文件(们)的,把很多的输入文件(们)切分成很多的输入分片,切分规则就是在这里定义的,每个InputSpl

大家好,又见面了,我是你们的朋友全栈君。

最顶级是InputFormat抽象类 ,该类定义了两个方法,方法getSplits是负责切分输入文件(们)的,把很多的输入文件(们)切分成很多的输入分片,切分规则就是在这里定义的,每个InputSplit对应一个Mapper任务。方法createRecordReader是负责把getSplits生成的很多InputSplit解析成键值对的。InputFormat中的方法getSplits负责拆分输入文件的,方法createRecordReader负责把拆分的数据解析成键值对。这是从两个不同的角度设定的方法,职责不同,功能不同。方法getSplits的返回值是InputSplit的集合。抽象类InputSplit表示每个Mapper任务将要处理的数据,是二进制的,

根据要处理的数据类型不同,InputSplit也有不同的含义,因此会有很多子类。

方法createRecordReader的返回值是一个可以处理键值对的RecordReader。抽象类RecordReader是就是把InputSplit的数据解析成键值对的,提供了解析规则和读取键值对的方法,

根据数据不同,解析规则也会不同,因此会有很多子类。

根据解析的数据不同,InputFormat的子类有DBInputFormat、DelegatingInputFormat和FileInputFormat。其中,DBInputFormat是专门用于加载数据库中的数据的,如mysql、oracle等;FileInputFormat是专门用于处理文件中的数据的;DelegatingInputFormat是把其他各种InputFormat组成到一起的委托接口。从功能可以看出,FileInputFormat是用途最广的,其次是DBInputFormat,再次是DelegatingInputFormat。

FileInputFormat

该类是专门处理文件的,该类提供了如何计算输入分片(InputSplit)的方法。每个InputSplit对应一个运行的Mapper任务,因此InputSplit的数量决定了运行的Mapper任务数量,InputSplit的大小决定了每个Mapper任务处理数据量的大小。在这里,使用的是InputSplit的子类FileSplit。类FileSplit是专门用于处理输入文件的,会按照固定的字节数对每个输入文件进行拆分,拆分成很多的FileSplit。

根据文件的不同,对FileSplit解析成键值对的方式也有很多。因此,FileInputFormat会有很多的子类,包括TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineFileInputFormat和SequenceFileInputFormat。

输入格式化类的作用有两个:

  • 设定Mapper任务数量——通过getSplits方法实现;
  • 把输入文件的内容解析成键值对,供map函数调用——通过createRecordReader方法实现;
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155143.html原文链接:https://javaforall.net

(0)
上一篇 2022年7月2日 下午7:16
下一篇 2022年7月2日 下午7:16


相关推荐

  • Android View 深度分析requestLayout、invalidate与postInvalidate「建议收藏」

    Android View 深度分析requestLayout、invalidate与postInvalidate「建议收藏」前言前几篇文章中,笔者对View的三大工作流程进行了详细分析,而这篇文章则详细讲述与三大工作流程密切相关的两个方法,分别是requestLayout和invalidate,如果对Viwe的三个工作流程不熟悉的读者,可以先看看前几篇文章,以便能更容易理解这篇文章的内容。

    2022年6月2日
    40
  • 批量下载ts视频文件

    批量下载ts视频文件第一步使用chrome按F12进入开发模式,拖动视频进度条到视频结束;然后找到.m3u8以结尾的文件并保存为文本文件。第二步点开查看里面是否存在如下以ts结尾的文件内容……/20180802/eXLFMdky/800kb/hls/QV7N1B14122999.ts/20180802/eXLFMdky/800kb/hls/QV7N1B14123000.ts…

    2022年7月18日
    24
  • RBF神经网络简单介绍与MATLAB实现

    RBF神经网络简单介绍与MATLAB实现RBF 的直观介绍 RBF 是一种两层的网络 RBF 的隐层是一种非线性的映射 RBF 输出层是线性的 RBF 的基本思想是将数据转化到高维空间使其在高维空间线性可分 RBF 学习算法 LazyRBFMATLA 实现 RBF 神经网络 RBF 的直观介绍 RBF 具体原理 网络上很多文章一定讲得比我好 所以我也不费口舌了 这里只说一说对 RBF 网络的一些直观的认识 1RBF 是一种两层的网络是的 RBF 结构上并不复杂 只

    2026年3月26日
    2
  • javascript真的是异步的吗?且看setTimeout的实现原理以及setTimeout(0)的使用场景「建议收藏」

    javascript真的是异步的吗?且看setTimeout的实现原理以及setTimeout(0)的使用场景

    2022年1月25日
    58
  • 用Java实现在【520,1314】之间生成随机整数的故事

    做一个积极的人编码、改bug、提升自己我有一个乐园,面向编程,春暖花开!在未来城市工作的的程序员小木,做了一个梦,梦到自己在塔鲁姆的街道上看到一个姑娘,这个姑娘从远处走向他,脸上带着微笑。让小木很是着迷,小木呆呆的望着姑娘从他身边走过,当他回过神来,发现姑娘已经走远,小木赶忙去追这位姑娘,突然天空中飘下一张字条,上面写着:我一眼就看出你是Java程序员了,当你能用代码实现 520~1…

    2022年2月28日
    55
  • java getmethod int_带有子类参数的Java getMethod

    java getmethod int_带有子类参数的Java getMethod我正在编写一个使用反射来动态查找和调用方法的库 只给出一个对象 一个方法名和一个参数列表 我需要调用给定的方法 就好像方法调用是在代码中显式编写的一样 我一直在使用以下方法 在大多数情况下都可以使用 staticvoidca Objectreceiv Stringmethod Object params Class gt paramTypes

    2026年3月17日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号