组织切片技术的原理(黄瓜怎么切片)

第一种切片机制——FileInputFormat1.切片的机制1.切片的机制简单地按照文件的内容长度进行切片切片大小,默认等于Block大小切片时不考虑数据集整体,而是逐个针对每一个文件单独切片…

大家好,又见面了,我是你们的朋友全栈君。

在job提交阶段我们会提交
xml文件、jar包、和切片信息,xml文件我们可以在程序中申明或写成配置文件,jar包就是我们的逻辑代码和依赖,而我们的切片信息可以由FileInputFormat和CombineTextInputFormat切片机制决定(也可以自定义切片机制)!!!

1.简介

FileInputFormat是所有基于文件的InputFormat的基类。这个基类提供了getSplits的通用性实现。FileInputFormat的子类需要覆写isSplitable方法来确保input-files不能被切分,并且被作为一个整体输入到mapper。FileInputFormat抽象类除了实现了父类InputFormat的抽象方法getSplits,还增加了一个比较重要的方法是IsSplitable,主要作用是:由于我们输入的文本文件可能是压缩文件,而压缩文件并不一定能被切分,所以判断的是压缩编码是否为SplittableCompressionCodec接口的实现,目前默认支持的可切分压缩编码为BZip2Codec,这也就是我们使用gzip等其他压缩文件进行处理的时候,map的个数等于压缩文件的个数。getSplits通过判断IsSplitable是否为true来选择对输入文件进行切分还是把文件当作一个split。

2.切片的默认机制

  1. 简单地按照文件的内容长度进行切片
  2. 切片大小,默认等于Block大小
  3. 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
    图解三:
    在这里插入图片描述

3.介绍默认切片流程

  1. 程序先找到你数据存储的目录
  2. 开始遍历处理(规划切片)目录下的每一个文件
  3. 遍历第一个文件file1.txt
	//源码流程
	1)获取文件大小:fs.sizeOf(ss.txt)
	2)计算切片大小:(computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M)
	3)开始切 第一个切片:ss.txt--0:128M
			 第二个切片:ss.txt--128:256M
			 第三个切片:ss.txt--256:320M
	//注:每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片
	4)将切片信息写到一个切片规划文件中
	5) 整个切片的核心过程在getSplit()方法中完成
	6) InputSplit只记录了切片的元数据信息,比如起始位置、长度以及所在的节点列表等。
  1. 提交切片规划文件到YARN上,YARN上的MrAppMaster就可以根据切片规划文件计算开启MapTask个数。

4.某些细节详解

1. 源码中计算切片大小的公式
Math.max(minSize, Math.min(maxSize, blockSize))

mapreduce.input.fileinputformat.split.minsize=1 默认值为1
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue 默认值Long.MAXValue
因此,默认情况下,切片大小=blocksize。

2. 改变切片大小
1)maxsize(切片最大值):参数如果调得比blockSize小,则会让切片变小,而且就等于配置的这个参数的值
2)minsize(切片最小值):参数调的比blockSize大,则可以让切片变得比blockSize还大。

5.FileInputFormat最常用的三个子类

输入格式 功能描述 键类型 值类型
TextInputFormat 每条记录是一行输入。键是LongWritable类型,存储该行在整个文件中的起始字节偏移量。值是这行的内容,不包括任何行终止符(换行符和回车符)。 行的字节偏移量(LongWritable) 行的内容(Text)
KeyValueInputFormat 每一行均为一条记录,被分隔符分割为key,value。可以通过在驱动类中设置conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, “\t”);来设定分隔符。默认分隔符是tab(\t) 第一个定义key/value分隔符之前的所有字符(Text) 第一个定义key/value分隔符之后的所有字符(Text)
NLineInputFormat 如果使用NlineInputFormat,代表每个map进程处理的InputSplit不再按Block块去划分,而是按NlineInputFormat指定的行数N来划分。即输入文件的总行数/N=切片数,如果不整除,切片数=商+1。 行的字节偏移量(LongWritable) 行的内容(Text)
SequenceFileInputFormat Hadoop定义的高性能二进制格式 用户自定义 用户自定义

版权声明:本博客为记录本人自学感悟,转载需注明出处!
https://me.csdn.net/qq_39657909

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/129283.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 什么是卫语句(卫语句)

    如果条件语句极其复杂,就应该将条件语句拆解开,然后逐个检查,并在条件为真时立刻从函数中返回,这样的单独检查通常被称之为“卫语句”(guardclauses)摘自《重构—改善既有代码的设计》卫语句的效果就是将原来需要仔细阅读代码、细心整理逻辑的条件判断整理成一眼能看透的逻辑关系,效果就像以下:if(it==活的){if(it==人){if(it!=女人){…

    2022年4月18日
    106
  • 卷积神经网络如何进行图像识别的

    卷积神经网络如何进行图像识别的在机器视觉的概念中,图像识别是指软件具有分辨图片中的人物、位置、物体、动作以及笔迹的能力。计算机可以应用机器视觉技巧,结合人工智能以及摄像机来进行图像识别。 什么是图像识别?为什么要进行图像识别? 在机器视觉的概念中,图像识别是指软件具有分辨图片中的人物、位置、物体、动作以及笔迹的能力。计算机可以应用机器视觉技巧,结合人工智能以及摄像机来进行图像识别。 …

    2022年6月10日
    39
  • 补码的运算方法「建议收藏」

    补码的运算方法「建议收藏」负数在计算机中是用补码的形式存储的,正数在计算机中是用原码的形式存储的。正数求原码直接将十进制转二进制即可,负数的补码是在原码的基础上除符号位外其余位取反后+1。但是用这种方式求负数补码用编程实现不太方便,下面介绍一种用编程实现起来较简便的求负数补码的方法:1.求出负数绝对值的原码2.从原码的最后一位数码位往前数,当遇到第一个1时停在此位置3.将第一个1前面的数码全部求反…

    2022年9月23日
    1
  • JavaScript 解构赋值

    JavaScript 解构赋值文章目录JavaScript解构数组解构分配默认值交换变量跳过项将剩余元素分配给单个变量嵌套解构赋值参考文档    在本教程中,您将借助示例了解JavaScript解构赋值。JavaScript解构    ES6中引入的解构赋值可以轻松地将数组值和对象属性分配给不同的变量。例如,    在ES6之前://assigningobjectattributestovariablesconstperson={name:’Sara’,age:25,

    2025年5月24日
    3
  • js实现键盘操作对div的移动或改变——-Day43

    js实现键盘操作对div的移动或改变——-Day43

    2021年11月29日
    35
  • win10黑群晖安装教程_黑群晖7.0安装教程

    win10黑群晖安装教程_黑群晖7.0安装教程使用芯片无忧工具,查看U盘的和。使用,格式化U盘。使用镜像写入工具,把引导写入U盘。修改文件,可以使用工具把文件复制到桌面,通过修改好之后,拖进这个界面中。或者在电脑中,查看U盘,打开U盘中的文件直接修改。具体修改内容如下:,因为我的主板上有4个sata口,然后PCIE扩展了6个SATA口,所以这里写了46,分别对应主板的SATA数目和PCIE的SATA数目。,因为主板的4个SATA口分别为00、01、02、03,所以PCIE的SATA从04开始。也就是说,前面两个00代表主板上的SATA控制从00开始计数

    2025年6月14日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号