利用PySpark统计相邻字符串对出现的次数

利用PySpark统计相邻字符串对出现的次数

如有文件demo.txt数据如下:

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B

代码如下:

from pyspark import SparkContext


sc = SparkContext()

rdd1 = sc.textFile('demo.txt')
rdd2 = rdd1.map(lambda x: x.split(';'))


def ne(x):
    return list(zip(*[x[i:] for i in range(2)]))


rdd2.flatMap(ne).map(lambda x: (x[0] + ' , ' + x[1], 1)).reduceByKey(lambda a, b: a + b).collect()

输出结果如下:

[('A , B', 2),
 ('B , C', 1),
 ('D , B', 1),
 ('B , D', 2),
 ('D , A', 1),
 ('C , D', 1),
 ('D , C', 2),
 ('A , E', 1),
 ('E , D', 1)]

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119507.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • pycharm断点调试教程_pycharm怎么debug

    pycharm断点调试教程_pycharm怎么debug前言如果你不会用IDE开发工具的debug,你在调试代码的时候可能会用print输出去调试,那样效率比较低。我们可以用Pycharm的debug来调试,当然如果你用的Jetbranis的其他产品,操作方法也是一样的。Pycharm的Debug(1)开启debug的方式:右键debug项目 工具栏的甲壳虫(2)常用按钮图解debugger栏:stepover(单步调试)程序代码越过子函数,但子函数会执行,且不进入。 stepinto(进入)在单步执行时,遇到子函数就进入.

    2022年8月26日
    7
  • linux定时删除N天前的文件(文件夹)

    linux定时删除N天前的文件(文件夹)

    2022年2月19日
    22
  • 树莓派命令连接wifi_树莓派连接无线网wifi配置方法

    树莓派命令连接wifi_树莓派连接无线网wifi配置方法Wifi配置我的Wifi配置基本上是跟着这个教程来的,下面将过程简述,并解释每个命令/语句的作用。1、检查USB无线网卡是否已经正确识别将无线USB网卡插入树莓派后启动树莓派,比较不建议热插拔,因为插入的一瞬间会有比较高的电流,如果电源输出不够可能导致树莓派重启。用自己的方法进入shell界面后输入命令:lsusb如果树莓派已经正常识别,在显示类似于如下的信息中可以看到你的USB无线网卡设备ID和…

    2022年6月6日
    160
  • excel VLOOKUP函数的用法

    excel VLOOKUP函数的用法

    2021年12月8日
    101
  • java多线程并发之旅-14-lock free queue 无锁队列[通俗易懂]

    java多线程并发之旅-14-lock free queue 无锁队列[通俗易懂]无锁队列能实现吗?上面说的加锁的环形队列,可以保证线程安全。但是加锁能不能去掉呢?答案是肯定的,请看下面的娓娓道来。i++是原子操作吗?i++和++i是原子操作吗?有一个很多人也许都不是很清楚的问题:i++或++i是一个原子操作吗?在上一节,其实已经提到了,在SMP(对称多处理器)上,即使是单条递减汇编指令,其原子性也是不能保证的。那么在单处理机系统中呢?在编译器对C/C++源代码…

    2022年7月19日
    20
  • android studio 更换darcula主题中的字体颜色以及常用主题「建议收藏」

    android studio 更换darcula主题中的字体颜色以及常用主题「建议收藏」更换主题的网站:http://www.ideacolorthemes.org/home/androidstudio中更换默认主题为darcula的教程网上很多,但是默认darcula主题中的colors&fonts不太喜欢,也感觉比较伤眼睛。国内百度了半天也没有解决方案,无奈翻墙找谷歌发现了这个网站。是在stackoverflow里发现的。设置方法很简单:

    2022年6月27日
    37

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号