halcon算子详解_rdd算子

halcon算子详解_rdd算子以上三个方法操作都是对RDD进行的聚合操作。1、reduce()与fold()方法是对同种元素类型数据的RDD进行操作,即必须同构。其返回值返回一个同样类型的新元素。valnums=Array(1,2,3,4,5,6,7,8,9)valnumsRdd=sc.parallelize(nums,3)valreduce=numsRdd.reduce((a,b)=>a+b)2、fo

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

以上三个方法操作都是对RDD进行的聚合操作。

1、reduce()与fold()方法是对同种元素类型数据的RDD进行操作,即必须同构。其返回值返回一个同样类型的新元素。

val nums = Array(1,2,3,4,5,6,7,8,9)
val numsRdd = sc.parallelize(nums,3)
val reduce = numsRdd.reduce((a,b) => a+b)

Jetbrains全家桶1年46,售后保障稳定


2、fold()与reduce()类似,接收与reduce接收的函数签名相同的函数,另外再加上一个初始值作为第一次调用的结果。(例如,加法初始值应为0,乘法初始值应为1)

val rdd = sc.makeRDD(List("a","a","b","b"),4)
val res = rdd.fold("")(_+_)

具体案例请参考: Spark算子[10]:foldByKey、fold 源码实例详解


3、aggregate() 方法可以对两个不同类型的元素进行聚合,即支持异构。
它先聚合每一个分区里的元素,然后将所有结果返回回来,再用一个给定的conbine方法以及给定的初始值zero value进行聚合。

def aggregate [U: ClassTag] (zeroValue: U) (seqOp: (U,T)=>U,combOp: (U,U)=>U):U

由以上可以看到,(zeroValue: U)是给定一个初值,后半部分有两个函数,seqOp与combOp。
seqOp相当于是在各个分区里进行的聚合操作,它支持(U,T)=>U,也就是支持不同类型的聚合。
combOp是将seqOp后的结果再进行聚合,此时的结果全部是U类,只能进行同构聚合。

var rdd1 = sc.makeRDD(1 to 10,2)
rdd1.mapPartitionsWithIndex{
        (partIdx,iter) => {
          var part_map = scala.collection.mutable.Map[String,List[Int]]()
            while(iter.hasNext){
              var part_name = "part_" + partIdx;
              var elem = iter.next()
              if(part_map.contains(part_name)) {
                var elems = part_map(part_name)
                elems ::= elem
                part_map(part_name) = elems
              } else {
                part_map(part_name) = List[Int]{elem}
              }
            }
            part_map.iterator
        }
      }.collect

res16: Array[(String, List[Int])] = Array((part_0,List(5, 4, 3, 2, 1)), (part_1,List(10, 9, 8, 7, 6)))

##第一个分区中包含5,4,3,2,1

##第二个分区中包含10,9,8,7,6

scala> rdd1.aggregate(1)(
     |           {
  
  (x : Int,y : Int) => x + y}, 
     |           {
  
  (a : Int,b : Int) => a + b}
     |     )
res17: Int = 58

结果为什么是58,看下面的计算过程:

##先在每个分区中迭代执行 (x : Int,y : Int) => x + y 并且使用zeroValue的值1

## part_0中 zeroValue+5+4+3+2+1 = 1+5+4+3+2+1 = 16

## part_1中 zeroValue+10+9+8+7+6 = 1+10+9+8+7+6 = 41

##再将两个分区的结果合并(a : Int,b : Int) => a + b ,并且使用zeroValue的值1

##即:zeroValue+part_0+part_1 = 1 + 16 + 41 = 58


fold

def fold(zeroValue: T)(op: (T, T) ⇒ T): T

fold是aggregate的简化,将aggregate中的seqOp和combOp使用同一个函数op。

scala> rdd1.fold(1)(
     |       (x,y) => x + y    
     |     )
res19: Int = 58

##结果同上面使用aggregate的第一个例子一样,即:
scala> rdd1.aggregate(1)(
     |           {
  
  (x,y) => x + y}, 
     |           {
  
  (a,b) => a + b}
     |     )
res20: Int = 58

案例参考与:lxw的大数据田地

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/219169.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 异步fifo的工作原理(netty异步方法)

    FPGA(一):异步FIFO实现(包含源码和仿真文件)一、异步FIFO的重要参数及其作用1、FIFO:FirstInputFirstOutput,即先入先出队列,本质是RAM。FIFO有几个最重要的参数:2、wr_clk:写时钟,所有与写有关的操作都是基于写时钟;3、rd_clk:读时钟,所有与读有关的操作都是基于读时钟;4、FIFO_WIDTH:FIFO的位宽,即FIFO中每个地址对应的数据的位宽;5、FIFO_DEPTH:FIFO的深度,即FIFO中能存入多少个(位宽为FIFO_

    2022年4月13日
    124
  • miRNA几大常用的数据库

    miRNA几大常用的数据库

    2022年2月24日
    45
  • mysql的端口是多少_如何查看db2数据库的端口

    mysql的端口是多少_如何查看db2数据库的端口查看mysql端口号(mysql端口号是多少)2020-05-0722:11:45共10个回答如何查看mysql的端口号1使用命令showglobalvariableslike’port’;查看端口号2修改端口,编辑/etc/my.cnf文件,早期版本有可能是my.conf文件名,增加端口参数,并且设定端口,注意该端口未被使用,保存退出.总结:注意修改的端口不要被占用,而且要有规划,不要轻意的总…

    2022年10月3日
    1
  • PKCS11接口解析「建议收藏」

    PKCS11接口解析「建议收藏」pkcs密码中间件位于上层应用和底层安全设备之间,应用基于PKCS#11标准接口开发各类应用程序。主要包括2个库主API库:提供给应用的PKCS11接口。 tokenDLL库:由主API库调用,完成从上向下到指定设备的套接。 安全密码设备:安全服务资源和实施的载体,完成具体安全功能支撑。表pkcs11函数接口 种类 函数 …

    2022年5月24日
    40
  • WhatsAPP通讯协议端对端加密人工智能[通俗易懂]

    WhatsAPP通讯协议端对端加密人工智能[通俗易懂]本文是一个以whatsapp为案例的,针对端对端聊天加密通讯协议整理的一个学习笔记,仅供大家学习。Signalprotocol是真正的端到端的通讯加密协议,号称是世界上最安全的通讯协议,任何第三方包括服务器都无法查看通讯内容。全篇都是围绕着Signalprotocol进行梳理和解释,学习的内容大致分为三个大部分:1、术语解析2、了解5577850怎么来的3、WhatsAPP的通讯流程。术语解析要了解整个的加密通讯协议,首先就是要了解一些不常见的密钥交换方法和算法,可以先看第二部分,

    2022年6月7日
    47
  • RT-Thread FinSH控制台添加自定义msh命令原理「建议收藏」

    RT-Thread FinSH控制台添加自定义msh命令原理「建议收藏」FinSH是RT-Thread的命令行组件,提供一套供用户在命令行调用的操作接口,主要用于调试或查看系统信息。它可以使用串口/以太网/USB等与PC机进行通信。FinSH提供了多个宏接口来导出自定义命令,导出的命令可以直接在FinSH中执行。自定义的msh命令,可以在msh模式下被运行,将一个命令导出到msh模式可以使用如下宏接口:MSH_CMD_EXPORT(name,desc);示例如下:voidhellort(void){rt_kpr

    2022年5月21日
    69

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号