利用PySpark统计相邻字符串对出现的次数

利用PySpark统计相邻字符串对出现的次数

如有文件demo.txt数据如下:

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B

代码如下:

from pyspark import SparkContext


sc = SparkContext()

rdd1 = sc.textFile('demo.txt')
rdd2 = rdd1.map(lambda x: x.split(';'))


def ne(x):
    return list(zip(*[x[i:] for i in range(2)]))


rdd2.flatMap(ne).map(lambda x: (x[0] + ' , ' + x[1], 1)).reduceByKey(lambda a, b: a + b).collect()

输出结果如下:

[('A , B', 2),
 ('B , C', 1),
 ('D , B', 1),
 ('B , D', 2),
 ('D , A', 1),
 ('C , D', 1),
 ('D , C', 2),
 ('A , E', 1),
 ('E , D', 1)]

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119507.html原文链接:https://javaforall.net

(0)
上一篇 2021年11月23日 上午10:00
下一篇 2021年11月23日 上午11:00


相关推荐

  • Apache knox_apache发生服务特定错误1

    Apache knox_apache发生服务特定错误1knox错误总结windowsbrowser有时候打不开KnoxUIhosts文件添加Knox的{{GATE_WAY}}ip的映射就可以打开界面了打开Knoxadmin_UI后显示不完全需要下载特定的js,私信我即可解决Knox配置yarnservice报错2020-03-1717:07:13,311ERRORknox.gateway(Gateway…

    2025年8月5日
    8
  • [CF1105D]Kilani and the Game

    [CF1105D]Kilani and the Game

    2021年6月29日
    90
  • 李宏毅2020机器学习资料汇总

    李宏毅2020机器学习资料汇总前言可能受到新冠病毒的影响,台大也开始了网课教学。李宏毅上传了2020版本的机器学习视频,可以说是非常好的学习资料(尽管其中多数都是2017、2019的视频,但有部分更新)。和吴恩达的CS229机器学习相比,中文版本的机器学习显得亲民了许多,李宏毅的机器学习是英文的ppt+中文讲解,非常有利于大家入门。吴恩达的CS229中偏向于传统机器学习……

    2022年6月15日
    31
  • c语言的单片机delay延时函数详解

    c语言的单片机delay延时函数详解c语言及单片机delay延时函数延时函数1、是什么2、为什么3、用在哪里?4、怎么做1、循环延时延时函数延时函数,作为一种常用函数,在不同的领域有不同的用处。而在嵌入式以及C语言的编写中,我们常常遇到需要自己来编写延时函数的情况,这种情况之下,了解其原理就显得必要。1、是什么简单来说,延时函数的目的就在于等,实际上就是要等一段时间再来执行接下来的代码。而这种简单的等,又可以采用多种方法来实现。例如:名称描述循环采用for或者while循环,让计算机跑无用的代码,从而达到延时的

    2022年5月5日
    61
  • Claude、ChatGPT、Gemini等主流AI模型。分别详细介绍它们并进行对比,需要指出关键的时间点

    Claude、ChatGPT、Gemini等主流AI模型。分别详细介绍它们并进行对比,需要指出关键的时间点

    2026年3月15日
    2
  • Java–String、StringBuilder及StringBuffer区别及性能对比

    Java–String、StringBuilder及StringBuffer区别及性能对比【学习背景】主要是想通过OpenJDK提供的JMH工具测试下String、StringBuilder及StringBuffer字符串拼接的效率如何~关于JMH的介绍及具体使用,我的这篇博文中有介绍:Java–☀️面试官:LinkedList真的比ArrayList添加元素快?❤️‍本文通过OpenJDKJMH带你揭开真相《⭐建议收藏⭐》当然,除了主要验证三者的字符串拼接效率之外,还会对三者做一些区别分析及常见面试问题总结,希望加深自己对这三者的认知,分享出来,也希望能帮助到有需要的小伙伴~

    2022年6月28日
    24

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号