大数据教程:Transformation和Action算子演示

大数据教程:Transformation和Action算子演示大数据教程:Transformation和Action算子演示

大家好,又见面了,我是你们的朋友全栈君。

大数据教程:Transformation和Action算子演示

一、Transformation算子演示

val conf = new SparkConf().setAppName(“Test”).setMaster(“local”)
val sc = new SparkContext(conf)

//通过并行化生成rdd

val rdd = sc.parallelize(List(5,6,4,7,3,8,2,9,10))

//map:对rdd里面每一个元乘以2然后排序

val rdd2: RDD[Int] = rdd.map(_ * 2)

//collect以数组的形式返回数据集的所有元素(是Action算子)

println(rdd2.collect().toBuffer)

//filter:该RDD由经过func函数计算后返回值为true的输入元素组成

val rdd3: RDD[Int] = rdd2.filter(_ > 10)
println(rdd3.collect().toBuffer)

val rdd4 = sc.parallelize(Array(“a b c”,”b c d”))

//flatMap:将rdd4中的元素进行切分后压平

val rdd5: RDD[String] = rdd4.flatMap(_.split(” “))
println(rdd5.collect().toBuffer)

//假如: List(List(” a,b” ,”b c”),List(“e c”,” i o”))

//压平 flatMap(_.flatMap(_.split(” “)))

//sample随机抽样

//withReplacement表示是抽出的数据是否放回,true为有放回的抽样,false为无放回的抽样

//fraction抽样比例例如30% 即0.3 但是这个值是一个浮动的值不准确

//seed用于指定随机数生成器种子 默认参数不传

val rdd5_1 = sc.parallelize(1 to 10)
val sample = rdd.sample(false,0.5)
println(sample.collect().toBuffer)

//union:求并集

val rdd6 = sc.parallelize(List(5,6,7,8))
val rdd7 = sc.parallelize(List(1,2,5,6))
val rdd8 = rdd6 union rdd7
println(rdd8.collect.toBuffer)

//intersection:求交集

val rdd9 = rdd6 intersection rdd7
println(rdd9.collect.toBuffer)

//distinct:去重出重复

println(rdd8.distinct.collect.toBuffer)

//join相同的key会被合并

val rdd10_1 = sc.parallelize(List((“tom”,1),(“jerry” ,3),(“kitty”,2)))
val rdd10_2 = sc.parallelize(List((“jerry” ,2),(“tom”,2),(“dog”,10)))
val rdd10_3 = rdd10_1 join rdd10_2
println(rdd10_3.collect().toBuffer)

//左连接和右连接

//除基准值外是Option类型,因为可能存在空值所以使用Option

val rdd10_4 = rdd10_1 leftOuterJoin rdd10_2

//以左边为基准没有是null

val rdd10_5 = rdd10_1 rightOuterJoin rdd10_2

//以右边为基准没有是null

println(rdd10_4.collect().toList)
println(rdd10_5.collect().toBuffer)

val rdd11_1 = sc.parallelize(List((“tom”,1),(“jerry” ,3),(“kitty”,2)))
val rdd11_2 = sc.parallelize(List((“jerry” ,2),(“tom”,2),(“dog”,10)))

//笛卡尔积

val rdd11_3 = rdd11_1 cartesian rdd11_2
println(rdd11_3.collect.toBuffer)

//根据传入的参数进行分组

val rdd11_5_1 = rdd11_4.groupBy(_._1)
println(rdd11_5_1.collect().toList)

//按照相同key进行分组,并且可以制定分区

val rdd11_5_2 = rdd11_4.groupByKey
println(rdd11_5_2.collect().toList)

//根据相同key进行分组[分组的话需要二元组]

//cogroup 和 groupBykey的区别

//cogroup不需要对数据先进行合并就以进行分组 得到的结果是 同一个key 和不同数据集中的数据集合

//groupByKey是需要先进行合并然后在根据相同key进行分组

val rdd11_6: RDD[(String, (Iterable[Int], Iterable[Int]))] = rdd11_1 cogroup rdd11_2
println(rdd11_6)

二、Action算子演示

val conf = new SparkConf().setAppName(“Test”).setMaster(“local[*]”)
val sc = new SparkContext(conf)

/* Action 算子*/

//集合函数

val rdd1 = sc.parallelize(List(2,1,3,6,5),2)
val rdd1_1 = rdd1.reduce(_+_)
println(rdd1_1)

//以数组的形式返回数据集的所有元素

println(rdd1.collect().toBuffer)

//返回RDD的元素个数

println(rdd1.count())

//取出对应数量的值 默认降序, 若输入0 会返回一个空数组

println(rdd1.top(3).toBuffer)

//顺序取出对应数量的值

println(rdd1.take(3).toBuffer)

//顺序取出对应数量的值 默认生序

println(rdd1.takeOrdered(3).toBuffer)

//获取第一个值 等价于 take(1)

println(rdd1.first())

//将处理过后的数据写成文件(存储在HDFS或本地文件系统)

//rdd1.saveAsTextFile(“dir/file1”)

//统计key的个数并生成map k是key名 v是key的个数

val rdd2 = sc.parallelize(List((“key1”,2),(“key2”,1),(“key3”,3),(“key4”,6),(“key5”,5)),2)
val rdd2_1: collection.Map[String, Long] = rdd2.countByKey()
println(rdd2_1)

//遍历数据

rdd1.foreach(x => println(x))

/*其他算子*/

//统计value的个数 但是会将集合中的一个元素看做是一个vluae

val value: collection.Map[(String, Int), Long] = rdd2.countByValue
println(value)

//filterByRange:对RDD中的元素进行过滤,返回指定范围内的数据

val rdd3 = sc.parallelize(List((“e”,5),(“c”,3),(“d”,4),(“c”,2),(“a”,1)))
val rdd3_1: RDD[(String, Int)] = rdd3.filterByRange(“c”,”e”)

//包括开始和结束的

println(rdd3_1.collect.toList)

//flatMapValues对参数进行扁平化操作,是value的值

val rdd3_2 = sc.parallelize(List((“a”,”1 2″),(“b”,”3 4″)))
println( rdd3_2.flatMapValues(_.split(” “)).collect.toList)

//foreachPartition 循环的是分区数据

// foreachPartiton一般应用于数据的持久化,存入数据库,可以进行分区的数据存储

val rdd4 = sc.parallelize(List(1,2,3,4,5,6,7,8,9),3)
rdd4.foreachPartition(x => println(x.reduce(_+_)))

//keyBy 以传入的函数返回值作为key ,RDD中的元素为value 新的元组

val rdd5 = sc.parallelize(List(“dog”,”cat”,”pig”,”wolf”,”bee”),3)
val rdd5_1: RDD[(Int, String)] = rdd5.keyBy(_.length)
println(rdd5_1.collect.toList)

//keys获取所有的key values 获取所有的values

println(rdd5_1.keys.collect.toList)
println(rdd5_1.values.collect.toList)

//collectAsMap 将需要的二元组转换成Map

val map: collection.Map[String, Int] = rdd2.collectAsMap()
println(map)

转载于:https://juejin.im/post/5d07547d6fb9a07ef7107428

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/106770.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月22日 上午11:00
下一篇 2022年4月22日 上午11:00


相关推荐

  • pycharm2021.12.12 激活码【2021最新】

    (pycharm2021.12.12 激活码)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html…

    2022年3月30日
    46
  • mongovue 导入mysql_MongoVUE简单操作手册「建议收藏」

    mongovue 导入mysql_MongoVUE简单操作手册「建议收藏」本文转自网络,对疑问的地方做了修改MongoVUE是个比较好用的MongoDB客户端,需要注册,但是可以变成永久使用,一、基础操作新增一个连接进入的界面形如二、进阶操作1、查看所有数据,会有三种格式的观看方式,分别为树形,表格,bjosn,详情见1.12、查看特定的数据,使用的时候shell命令,需要一些基础的语法知识,详情见2.13、更新数据,详情见3.14、删除数据,慎用,如果没有备份,删除…

    2022年8月21日
    7
  • 二进制补码计算原理详解

    二进制补码计算原理详解二进制负数的在计算机中采用补码的方式表示 很多人很好奇为什么使用补码 直接使用原码表示多好 看上去更加直观和易于计算 然而事实告诉我们 这种直观只是我们人类的一厢情愿罢了 在计算机看来 补码才是它们最想要的 那么 为什么计算机使用补码更好 又是如何通过补码来计算数值的呢 我看过网络上很多解释补码的文章 几乎一致的回答就是符号位不变 其他各位逐位求反再加一 在此我想说 这些都不是根本原理 谁都知

    2026年3月26日
    2
  • vs2021安装教程_vs2015企业版安装教程

    vs2021安装教程_vs2015企业版安装教程一、学习C/C++语言用什么环境?DevC++很久不在更新,对于C语言的标准支持不够好vc6.0太古老,98年的软件了二、那小编推荐什么大家用什么软件?VS2013及以上版本都行!今天跟大家唠如何安装VS2022(听说VS官网更新了,小伙伴们找不到VS2019了)三、VS2019下载官网VS2022官网https://visualstudio.microsoft.com/zh-hans/?rr=https://www.microsoft.com/zh-cn/3.1点击VS

    2025年10月19日
    9
  • pycharm激活码最新2022.01(JetBrains全家桶)「建议收藏」

    (pycharm激活码最新2022.01)JetBrains旗下有多款编译器工具(如:IntelliJ、WebStorm、PyCharm等)在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上,过去15年以来,JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

    2022年4月1日
    208
  • 谷歌 analytics.js 部分解密版

    谷歌 analytics.js 部分解密版源:http://www.google-analytics.com/analytics.js(function(){varaa=encodeURIComponent,f=window,ba=setTimeout,n=Math;functionPc(a,b){returna.href=b}functionfa(a,b){returna.name=b}varQc=”repla…

    2022年7月26日
    14

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号