Spark pyspark rdd连接函数之join、leftOuterJoin、rightOuterJoin和fullOuterJoin介绍

Spark pyspark rdd连接函数之join、leftOuterJoin、rightOuterJoin和fullOuterJoin介绍Sparkpysparkrdd连接函数之join、leftOuterJoin、rightOuterJoin和fullOuterJoin介绍union用于组合两个rdd的元素,join用于内连接,而后三个函数(leftOuterJoin,rightOuterJoin,fullOuterJoin)用于类似于SQL的左、右、全连接。针对key-value形式的RDD。例子:1)数据初始化>&g…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

Spark pyspark rdd连接函数之join、leftOuterJoin、rightOuterJoin和fullOuterJoin介绍

union用于组合两个rdd的元素,join用于内连接,而后三个函数(leftOuterJoinrightOuterJoinfullOuterJoin)用于类似于SQL的左、右、全连接。
针对key-value形式的RDD。

例子:

1)数据初始化

>>> pp=(('cat', 2), ('cat', 5), ('book', 4), ('cat', 12))
>>> pp
(('cat', 2), ('cat', 5), ('book', 4), ('cat', 12))
>>> qq=(("cat",2), ("cup", 5), ("mouse", 4),("cat", 12))
>>> qq
(('cat', 2), ('cup', 5), ('mouse', 4), ('cat', 12))
>>> pairRDD1 = sc.parallelize(pp)
>>> pairRDD2 = sc.parallelize(qq)
>>> pairRDD1.collect()
[('cat', 2), ('cat', 5), ('book', 4), ('cat', 12)]
>>> pairRDD2.collect()
[('cat', 2), ('cup', 5), ('mouse', 4), ('cat', 12)]

Jetbrains全家桶1年46,售后保障稳定

2)Join内连接结果:
>>> pairRDD1.join(pairRDD2).collect()
[('cat', (2, 2)), ('cat', (2, 12)), ('cat', (5, 2)), ('cat', (5, 12)), ('cat', (12, 2)), ('cat', (12, 12))]
3)leftOuterJoin结果:
>>> pairRDD1.leftOuterJoin(pairRDD2).collect()
[('book', (4, None)), ('cat', (2, 2)), ('cat', (2, 12)), ('cat', (5, 2)), ('cat', (5, 12)), ('cat', (12, 2)), ('cat', (12, 12))]
4)rightOuterJoin结果:
>>> pairRDD1.rightOuterJoin(pairRDD2).collect()
[('cup', (None, 5)), ('mouse', (None, 4)), ('cat', (2, 2)), ('cat', (2, 12)), ('cat', (5, 2)), ('cat', (5, 12)), ('cat', (12, 2)), ('cat', (12, 12))]
5)fullOuterJoin结果:
>>> pairRDD1.fullOuterJoin(pairRDD2).collect()
[('book', (4, None)), ('cup', (None, 5)), ('mouse', (None, 4)), ('cat', (2, 2)), ('cat', (2, 12)), ('cat', (5, 2)), ('cat', (5, 12)), ('cat', (12, 2)), ('cat', (12, 12))]

6)union结果:

>>> pairRDD1.union(pairRDD2).collect()
[('cat', 2), ('cat', 5), ('book', 4), ('cat', 12), ('cat', 2), ('cup', 5), ('mouse', 4), ('cat', 12)]

参考:http://blog.cheyo.net/175.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/216256.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Ubuntu18.04美化_乌班图美化

    Ubuntu18.04美化_乌班图美化和网上的美化一样,但是我当初跟着博客美化的时候遇到一些问题,按博客的做法无法解决。所以我自己也写一篇关于ubuntu18.04美化主题的博客。第一步:安装主题工具:GNOMETweakssudoapt-getupdatesudoapt-getinstallgnome-tweak-tool然后安装完成后我们打开Tweaks(截图如下):第二步,修改窗口按钮位…

    2022年9月24日
    3
  • 欧式距离、标准化欧式距离、马氏距离、余弦距离

    欧式距离、标准化欧式距离、马氏距离、余弦距离目录欧氏距离标准化欧氏距离马氏距离夹角余弦距离汉明距离曼哈顿(Manhattan)距离1.欧式距离欧式距离源自N维欧氏空间中两点x1,x2x1,x2x_1,x_2间的距离公式:d=∑i=1N(x1i−x2i)2‾‾‾‾‾‾‾‾‾‾√d=∑i=1N(x1i−x2i)2d=\sum_{i=1}^N\sqrt{(x_{1i}-x_{2i})^2}2.标准化…

    2022年6月19日
    20
  • 产品密钥无法激活成功,最后使用visio2013激活软件激活成功。「建议收藏」

    产品密钥无法激活成功,最后使用visio2013激活软件激活成功。「建议收藏」装了visio2013,使用网上搜索的产品密钥,没有一个能够激活成功。最后发现了visio的一个激活软件KMSpico,成功激活。激活成功教程工具KMSpico_setup.exe下载地址:https://pan.baidu.com/s/1wElfmRaufSpQGloLgQC64g提取码:kv2h安装后,从开始->程序->KMSpico->启动KMSpic…

    2022年6月24日
    64
  • 京东注册地址是开曼群岛吗(开曼群岛位置)

    作为全球第4大离岸金融中心,开曼群岛,位于加勒比海北部,由大开曼岛和附近两个小岛组成,北、东两面隔海与古巴相望,东南跟牙买加隔海相邻,南濒加勒比海,西部隔海与墨西哥、伯利兹相望,陆地面积约264平方公里,总人口约6.4万人,首府是乔治敦。开曼群岛是个多种族混居的地区,其中白人占人口的大多数,其余主要是黑人或混血种人,居民大多信仰基督新教,官方语言为英语。开曼群岛地理位置图开曼群岛原是印第安人加勒比族的聚居地,文明开化的历史比较晚,直到西方殖民者入侵之前,当地依旧停留在原始社会阶段。1..

    2022年4月11日
    586
  • Tomcat在Linux上的安装与配置「建议收藏」

    Tomcat在Linux上的安装与配置「建议收藏」Tomcat在Linux上的安装与配置  以下使用的Linux版本为:RedhatEnterpriseLinux7.0x86_64,Tomcat版本为tomcat-7.0.54.1.下载JDK与Tomcat.  jdk下载地址:  http://www.oracle.com/technetwork/java/javase/downloads/j

    2022年5月28日
    35
  • 除了p站还有哪些站_p站以外的

    除了p站还有哪些站_p站以外的说p站,估计不知道的人已经很少了,不过今天搜罗君要说是,除了p站还有哪些站?我盲猜,应该很多人思考过这个问题了~咱们按照英文字母顺序ABCD···XYZ来说1.A站AcFun,中国第…

    2022年9月25日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号