hive lateral view 与 explode详解[通俗易懂]

hive lateral view 与 explode详解[通俗易懂]1.explodehivewiki对于expolde的解释如下:explode()takesinanarray(oramap)asaninputandoutputstheelementsofthearray(map)asseparaterows.UDTFscanbeusedintheSELECTexpressionlistandas

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star,留言,一起学习进步

1.explode

hive wiki对于expolde的解释如下:

explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in the SELECT expression list and as a part of LATERAL VIEW.

As an example of using explode() in the SELECT expression list, consider a table named myTable that has a single column (myCol) and two rows:

这里写图片描述

Then running the query:

SELECT explode(myCol) AS myNewCol FROM myTable;

will produce:
这里写图片描述
The usage with Maps is similar:

SELECT explode(myMap) AS (myMapKey, myMapValue) FROM myMapTable;

总结起来一句话:explode就是将hive一行中复杂的array或者map结构拆分成多行。

使用实例:
xxx表中有一个字段mvt为string类型,数据格式如下:

[{“eid”:“38”,“ex”:“affirm_time_Android”,“val”:“1”,“vid”:“31”,“vr”:“var1”},{“eid”:“42”,“ex”:“new_comment_Android”,“val”:“1”,“vid”:“34”,“vr”:“var1”},{“eid”:“40”,“ex”:“new_rpname_Android”,“val”:“1”,“vid”:“1”,“vr”:“var1”},{“eid”:“19”,“ex”:“hotellistlpage_Android”,“val”:“1”,“vid”:“1”,“vr”:“var01”},{“eid”:“29”,“ex”:“bookhotelpage_Android”,“val”:“0”,“vid”:“1”,“vr”:“var01”},{“eid”:“17”,“ex”:“trainMode_Android”,“val”:“1”,“vid”:“1”,“vr”:“mode_Android”},{“eid”:“44”,“ex”:“ihotelList_Android”,“val”:“1”,“vid”:“36”,“vr”:“var1”},{“eid”:“47”,“ex”:“ihotelDetail_Android”,“val”:“0”,“vid”:“38”,“vr”:“var1”}]

用explode小试牛刀一下:

select explode(split(regexp_replace(mvt,'\\[|\\]',''),'\\},\\{')) from ods_mvt_hourly where day=20160710 limit 10;

最后出来的结果如下:
{“eid”:“38”,“ex”:“affirm_time_Android”,“val”:“1”,“vid”:“31”,“vr”:“var1”
“eid”:“42”,“ex”:“new_comment_Android”,“val”:“1”,“vid”:“34”,“vr”:“var1”
“eid”:“40”,“ex”:“new_rpname_Android”,“val”:“1”,“vid”:“1”,“vr”:“var1”
“eid”:“19”,“ex”:“hotellistlpage_Android”,“val”:“1”,“vid”:“1”,“vr”:“var01”
“eid”:“29”,“ex”:“bookhotelpage_Android”,“val”:“0”,“vid”:“1”,“vr”:“var01”
“eid”:“17”,“ex”:“trainMode_Android”,“val”:“1”,“vid”:“1”,“vr”:“mode_Android”
“eid”:“44”,“ex”:“ihotelList_Android”,“val”:“1”,“vid”:“36”,“vr”:“var1”
“eid”:“47”,“ex”:“ihotelDetail_Android”,“val”:“0”,“vid”:“38”,“vr”:“var1”}
{“eid”:“38”,“ex”:“affirm_time_Android”,“val”:“1”,“vid”:“31”,“vr”:“var1”
“eid”:“42”,“ex”:“new_comment_Android”,“val”:“1”,“vid”:“34”,“vr”:“var1”

2.lateral view

hive wiki 上的解释如下:

Lateral View Syntax

lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (’,’ columnAlias)*
fromClause: FROM baseTable (lateralView)*

Description

Lateral view is used in conjunction with user-defined table generating functions such as explode(). As mentioned in Built-in Table-Generating Functions, a UDTF generates zero or more output rows for each input row. A lateral view first applies the UDTF to each row of base table and then joins resulting output rows to the input rows to form a virtual table having the supplied table alias.

Example

Consider the following base table named pageAds. It has two columns: pageid (name of the page) and adid_list (an array of ads appearing on the page)
这里写图片描述

An example table with two rows:
这里写图片描述

and the user would like to count the total number of times an ad appears across all pages.
A lateral view with explode() can be used to convert adid_list into separate rows using the query:

SELECT pageid, adid
FROM pageAds LATERAL VIEW explode(adid_list) adTable AS adid;

The resulting output will be
这里写图片描述
Then in order to count the number of times a particular ad appears, count/group by can be used:

SELECT adid, count(1)
FROM pageAds LATERAL VIEW explode(adid_list) adTable AS adid
GROUP BY adid;

The resulting output will be
这里写图片描述
lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。

由此可见,lateral view与explode等udtf就是天生好搭档,explode将复杂结构一行拆成多行,然后再用lateral view做各种聚合。

3.实例

还是第一部分的例子,上面我们explode出来以后的数据,不是标准的json格式,我们通过lateral view与explode组合解析出标准的json格式数据:

SELECT ecrd, CASE WHEN instr(mvtstr,'{')=0
    AND instr(mvtstr,'}')=0 THEN concat('{',mvtstr,'}') WHEN instr(mvtstr,'{')=0
    AND instr(mvtstr,'}')>0 THEN concat('{',mvtstr) WHEN instr(mvtstr,'}')=0
    AND instr(mvtstr,'{')>0 THEN concat(mvtstr,'}') ELSE mvtstr END AS mvt
      FROM ods.ods_mvt_hourly LATERAL VIEW explode(split(regexp_replace(mvt,'\\[|\\]',''),'\\},\\{')) addTable AS mvtstr
        WHERE DAY='20160710' and ecrd is not null limit 10

查询出来的结果:
xxx
{“eid”:“38”,“ex”:“affirm_time_Android”,“val”:“1”,“vid”:“31”,“vr”:“var1”}
xxx
{“eid”:“42”,“ex”:“new_comment_Android”,“val”:“1”,“vid”:“34”,“vr”:“var1”}
xxx
{“eid”:“40”,“ex”:“new_rpname_Android”,“val”:“1”,“vid”:“1”,“vr”:“var1”}
xxx
{“eid”:“19”,“ex”:“hotellistlpage_Android”,“val”:“1”,“vid”:“1”,“vr”:“var01”}
xxx
{“eid”:“29”,“ex”:“bookhotelpage_Android”,“val”:“0”,“vid”:“1”,“vr”:“var01”
xxx
{“eid”:“17”,“ex”:“trainMode_Android”,“val”:“1”,“vid”:“1”,“vr”:“mode_Android”}
xxx
{“eid”:“44”,“ex”:“ihotelList_Android”,“val”:“1”,“vid”:“36”,“vr”:“var1”}
xxx
{“eid”:“47”,“ex”:“ihotelDetail_Android”,“val”:“1”,“vid”:“38”,“vr”:“var1”}
xxx
{“eid”:“38”,“ex”:“affirm_time_Android”,“val”:“1”,“vid”:“31”,“vr”:“var1”}
xxx
{“eid”:“42”,“ex”:“new_comment_Android”,“val”:“1”,“vid”:“34”,“vr”:“var1”}

4.Ending

Lateral View通常和UDTF一起出现,为了解决UDTF不允许在select字段的问题。
Multiple Lateral View可以实现类似笛卡尔乘积。
Outer关键字可以把不输出的UDTF的空结果,输出成NULL,防止丢失数据。

参考内容:

1.http://blog.csdn.net/oopsoom/article/details/26001307 lateral view的用法实例
2.https://my.oschina.net/leejun2005/blog/120463 复合函数的用法,比较详细
3.http://blog.csdn.net/zhaoli081223/article/details/46637517 udtf的介绍

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/191008.html原文链接:https://javaforall.net

(0)
上一篇 2026年2月9日 下午5:43
下一篇 2026年2月9日 下午6:15


相关推荐

  • 关于callee含义

    关于callee含义functionAaro List callback nbsp nbsp nbsp setTimeout function nbsp nbsp nbsp nbsp nbsp nbsp vartask nbsp nbsp nbsp nbsp nbsp nbsp if task List shift nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp task 执行函数 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp if List length0 递归分解 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp

    2026年3月18日
    2
  • python 怎么设置背景为白色_pycharm怎么将背景颜色设置成白色?

    python 怎么设置背景为白色_pycharm怎么将背景颜色设置成白色?方法 1 在 pycharm 中 点击顶部的 文件 选项 2 点击 设置 按钮 进入设置页面 3 点击 编辑器 选项 再点击 颜色 amp 字体 选项 4 点击 控制台的颜色 选项 在右侧的 scheme 菜单中 选择 default 选项 点击确定即可 pycharm 背景颜色设置成白色的方法 1 如果没有安装 pycharm 可以先进行安装 安装完成之后我们点击桌面的 pycharm 图标进入首页 2 进入之后 我们

    2026年3月26日
    2
  • Mac anaconda 安装openCV

    Mac anaconda 安装openCVMacanaconda 安装 openCV1 首先去清华镜像源网站下载对应版本的 opencv 我下载的是 opencv python 4 5 2 54 cp38 cp38 macosx 10 15 x86 64 whl 下载网址 https pypi tuna tsinghua edu cn simple opencv python 2 在 anaconda 中打开终端 cd 到 whl 的下载地址的文件夹 我下载的 whl 文件的放在 downloads 文件夹下 则终端输入 cddownloads3 输入 p

    2026年3月26日
    2
  • 挂载存储包怎么操作?挂载存储包详细步骤教程

    挂载存储包怎么操作?挂载存储包详细步骤教程

    2026年3月13日
    3
  • 协同过滤算法

    协同过滤算法###1.协同过滤算法协同过滤(CollaborativeFiltering)推荐算法是最经典、最常用的推荐算法。所谓协同过滤,基本思想是**根据用户之前的喜好以及其他兴趣相近的用户的选择

    2022年7月2日
    23
  • idea2012.2 激活码-激活码分享

    (idea2012.2 激活码)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~D…

    2022年3月26日
    107

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号