RDD — flatmap

RDD — flatmapflatmapflatmap简单用法defmain(args:Array[String]):Unit={//设置log级别Logger.getLogger(“org”).setLevel(Level.WARN)valconf=newSparkConf().setAppName(“WordCountDemo”).setMaster(“loca…

大家好,又见面了,我是你们的朋友全栈君。

flatmap

flatmap 简单用法

  def main(args: Array[String]): Unit = { 
   
    //设置log级别
    Logger.getLogger("org").setLevel(Level.WARN)
    val conf = new SparkConf().setAppName("WordCountDemo").setMaster("local")
    val sc = new SparkContext(conf)
    sc.textFile("hdfs://hadoop001:9000/in/word")
      .flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect().foreach(println(_))
    sc.stop()
  }

flatmap 复杂用法

  def main(args: Array[String]): Unit = { 
   
    val spark = SparkSession.builder()
      .config("spark.executor.memory", "2g")
      .appName("WordCount")
      .master("local[6]")
      .getOrCreate()
    val sc = spark.sparkContext
    
    val array = Array((1,"a b c d"),(2,"a b c"),(3,"a b"))
    /** * 第一种写法 */
    val rdd = sc.parallelize(array)
      rdd.flatMap(x => { 
   
        val sub = ArrayBuffer.empty[(Int, String)]
        x._2.split(" ").foreach(e => { 
   
          sub.+=((x._1, e))
        })
        sub.iterator
      }).collect().foreach(println)

    /** * 第二种写法 */
    //rdd.flatMap(x=> x._2.split(" ").map(y =>(x._1,y))).collect().foreach(println)
    sc.stop()
    spark.close()
  }

结果

(1,a)
(1,b)
(1,c)
(1,d)
(2,a)
(2,b)
(2,c)
(3,a)
(3,b)

一块石头一半做成了佛像,一半做成了台阶。台阶不服气的问佛:我们本是一块石头,凭什么人们都踩着我,而去朝拜你呢?佛说: 因为你只挨了一刀,而我却经历了千刀万剐,千锤万凿。台阶沉默了。第二天台阶又来找佛,说:这是我的朋友切菜板,您给个说法?

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/139838.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月7日 下午7:20
下一篇 2022年5月7日 下午7:20


相关推荐

  • WebPack_钢铁雄心4toolpack

    WebPack_钢铁雄心4toolpack关于Devtool该选项控制是否以及如何生成源映射。官网上给出的可选值有:其中一些值适合开发,一些用于生产。对于开发,您通常需要快速的SourceMaps,以bundle的大小为代价,但是对于生产,您需要独立的SourceMaps,这是精确的,并且支持最小化。选择一种源映射样式,以增强调试过程。这些值可以显著地影响构建和重建速度。而不是使用devtool选项还可以使用Sourc…

    2022年10月5日
    5
  • 数据库和数据仓库联系和区别

    数据库和数据仓库联系和区别数据库和数据仓库联系和区别 1 前言 2 来源 3 用途 4 特性不同 4 1 设计 4 2 优化 4 3 数据量 1 前言不能简单的说数据仓库是数据库的扩大版 它们是针对不同的服务而产生的 传统的数据库针对 OLTP 联机事务处理 主要应用与业务处理 而数据仓库针对 OLAP 联机分析处理 主要为决策服务 数据仓库的本质还是一个数据库 它将各个异构的数据源数据库的数据给统一管理起来 并且完成了质量较差的数据的剔除 格式转换 最终按照一种合理的建模方式来完成源数据组织形式的转变 以更好的支持到前端的可视化分析

    2026年3月18日
    2
  • python开发h5页面_python读取excel

    python开发h5页面_python读取excel广告关闭腾讯云11.11云上盛惠,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元!腾讯云api全新升级3.0,该版本进行了性能优化且全地域部署、支持就近和按地域接入、访问时延下降显著,接口描述更加详细、错误码描述更加全面、sdk增加接口级注释,让您更加方便快捷的使用腾讯云产品。这里针对pythonapi调用方式进行简单说明。现已支持云服务器(cv…

    2025年10月16日
    4
  • 有哪些激光雷达SLAM算法?

    有哪些激光雷达SLAM算法?点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达来源丨https://www.zhihu.com/question/433556301编辑丨计算机视觉工坊方法一作者|牛先卓http…

    2022年6月20日
    32
  • OpenClaw 手机端实战:在 Android 上用 openclaw-termux 随身运行 AI Gateway

    OpenClaw 手机端实战:在 Android 上用 openclaw-termux 随身运行 AI Gateway

    2026年3月14日
    2
  • 锂电池3V升12V(AH6901)低成本替代6291升压芯片

    锂电池3V升12V(AH6901)低成本替代6291升压芯片锂电池3V升12V(AH6901)低成本替代6291升压芯片应用于数码相机,移动电源,蓝牙音箱,插卡音箱、LED台灯便捷DVD,MID,移动电话等数码产品AH6901是一款小封装(SOT23-6)、CC(恒流)模式的PWM升压IC,适用于锂电池(3~4.2V)输出5V,1A的移动电源应用。AH6901输入电压范围可由最低2.6伏特到最高6伏特,输出电压3.3–20V可调整且内部MOS输出开关电流可高达2A,封装为SOT23-6,工作频率为1MHZ,可以搭配3.3uh小型贴片电感,减少成品体积,非常适

    2022年10月6日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号