spark中flatMap函数用法–spark学习（基础）「建议收藏」

全栈程序员-站长 • 2022年5月27日上午7:20 • 未分类 • 阅读 35

spark中flatMap函数用法–spark学习（基础）「建议收藏」说明在spark中map函数和flatMap函数是两个比较常用的函数。其中map：对集合中每个元素进行操作。flatMap：对集合中每个元素进行操作然后再扁平化。理解扁平化可以举个简单例子valarr=sc.parallelize(Array((“A”,1),(“B”,2),(“C”,3)))arr.flatmap(x=>(x._1+x._2)).foreach(println)输出

大家好，又见面了，我是你们的朋友全栈君。

说明

在spark中map函数和flatMap函数是两个比较常用的函数。其中
map：对集合中每个元素进行操作。
flatMap：对集合中每个元素进行操作然后再扁平化。
理解扁平化可以举个简单例子

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.flatmap(x=>(x._1+x._2)).foreach(println)

输出结果为

A
1
B
2
C
3

如果用map

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.map(x=>(x._1+x._2)).foreach(println)

输出结果

A1
B2
C3

所以flatMap扁平话意思大概就是先用了一次map之后对全部数据再一次map。

实际使用场景

这个场景是我曾经在写代码过程中遇到的难题，在字符串中如何统计相邻字符对出现的次数。意思就是如果有A;B;C;D;B;C字符串，则（A,B）,(C,D),(D,B)相邻字符对出现一次，(B,C)出现两次。
如有数据

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B

统计相邻字符对出现次数代码如下

data.map(_.split(";")).flatMap(x=>{
      for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1)
    }).reduceByKey(_+_).foreach(println)

输出结果为

(A,E,1)
(E,D,1)
(D,A,1)
(C,D,1)
(B,C,1)
(B,D,2)
(D,C,2)
(D,B,1)
(A,B,2)

此例子就是充分运用了flatMap的扁平化功能。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/140836.html原文链接：https://javaforall.net

学习

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

Android代码混淆技术总结（一）「建议收藏」

上一篇 2022年5月27日上午7:00

银行家算法程序c语言,银行家算法代码c语言编写.doc

下一篇 2022年5月27日上午7:20

ES集群搭建详细步骤[通俗易懂]

ES集群搭建详细步骤[通俗易懂]@系统：*Centos6****ES版本：6.4.0服务器三台172.16.0.8172.16.0.6172.16.0.22部署jdk解压jdk放在/data目录，/data/jdk配置环境变量，/etc/proifle里面加入如下exportJAVA_HOME=/data/jdkexportPATH=$PATH:$JAVA_HOME/binexportCLASS…

全栈程序员-站长
2022年10月13日
4
Linux学习教程 Linux入门教程（超全面超详细）收藏这一篇就够了

Linux学习教程 Linux入门教程（超全面超详细）收藏这一篇就够了Linux 是什么 linux 是一个开源免费的操作系统其稳定性安全性处理多并发能力已经得到业界的认可目前大多数企业级应用甚至是集群项目都部署运行在 linux 操作系统之上很多软件公司考虑到开发成本都首选 linux 在中国软件公司得到广泛的使用 Linux 主要的发行版本 Ubuntu 乌班图 RedHat 红帽 CentOS Debain 蝶变 Fedora SuSE OpenSUSE 红旗 Linux 国产 Linux 的目录结构 Linux 目录结构概述 Lin

全栈程序员-站长
2026年3月26日
3
SwipeRefreshLayout实现上滑加载更多[通俗易懂]

SwipeRefreshLayout实现上滑加载更多[通俗易懂]SwipeRefreshLayout实现上滑加载更多在我们的项目中，需要用到许多下拉刷新和上滑加载的操作，不说什么没用的，直接来介绍SwipeRefreshLayout的扩展用法。后面会简单的介绍SwipeRefreshLayout的用法。在这里我们对谷歌官方的控件进行拓展，使得SwipeRefreshLayout具有上滑加载更多的功能。下面是正文首先我们新建文件(文件名自己定义，在…

全栈程序员-站长
2022年6月25日
26
Mac Tomcat配置环境变量,启动

Mac Tomcat配置环境变量,启动https://www.cnblogs.com/ngtblog/p/8583233.html没有设置全局变量的时候启动tomcat的话需要使用sh ./startup.sh 或者 sh./shutdown.sh(不过首先要定位到bin目录下)如果没有配置的话需要如图这样为了方便使用.我们把mac的的路径设置为全局变量,方便直接使用startup.sh和shutdo…

全栈程序员-站长
2022年5月25日
37
电脑很大,电脑内存很大为什么还是很卡「建议收藏」

电脑很大,电脑内存很大为什么还是很卡「建议收藏」2019-10-09阅读(121)”电脑反应慢原因：1.电脑反应太慢，第一我们打开任务管理器，检查CPU资源的使用，若某个程序的CPU资源占用一直比较高(比如占到50%以上)，系统速度就会明显变慢。因一般情况下，除大型游戏程序之外，应用程序在运行过程中只是瞬间占用较高，而不会一直持续2019-10-09阅读(132)一.清理垃圾在Windows在安装和使用过程中都会产生相当多的垃圾文件，包括临时文…

全栈程序员-站长
2022年5月5日
335
给定一个n个正整数组成的数组_算法基础课acwing下载

给定一个n个正整数组成的数组_算法基础课acwing下载给定长度为 N 的数列 A，然后输入 M 行操作指令。第一类指令形如 C l r d，表示把数列中第 l∼r 个数都加 d。第二类指令形如 Q x，表示询问数列中第 x 个数的值。对于每个询问，输出一个整数表示答案。输入格式第一行包含两个整数 N 和 M。第二行包含 N 个整数 A[i]。接下来 M 行表示 M 条指令，每条指令的格式如题目描述所示。输出格式对于每个询问，输出一个整数表示答案。每个答案占一行。数据范围1≤N,M≤105,|d|≤10000,|A[i]|≤109输

全栈程序员-站长
2022年8月9日
7

spark中flatMap函数用法–spark学习（基础）「建议收藏」

说明

实际使用场景

关于作者

全栈程序员-站长

相关推荐

ES集群搭建详细步骤[通俗易懂]

Linux学习教程 Linux入门教程（超全面 超详细）收藏这一篇就够了

SwipeRefreshLayout实现上滑加载更多[通俗易懂]

Mac Tomcat配置环境变量,启动

电脑很大,电脑内存很大为什么还是很卡「建议收藏」

给定一个n个正整数组成的数组_算法基础课acwing下载

发表回复

Linux学习教程 Linux入门教程（超全面超详细）收藏这一篇就够了