hive 配置文件以及join中null值的处理「建议收藏」

hive 配置文件以及join中null值的处理

大家好,又见面了,我是全栈君。

一、Hive的參数设置

1.  三种设定方式:配置文件

·   用户自己定义配置文件:$HIVE_CONF_DIR/hive-site.xml

·   默认配置文件:$HIVE_CONF_DIR/hive-default.xml

用户自己定义配置会覆盖默认配置。

另外,Hive也会读入Hadoop的配置,由于Hive是作为Hadoop的client启动的,Hadoop的配置文件包含

·   $HADOOP_CONF_DIR/hive-site.xml

·   $HADOOP_CONF_DIR/hive-default.xml

Hive的配置会覆盖Hadoop的配置。

配置文件的设定对本机启动的全部Hive进程都有效。

2.  命令行參数 ,

bin/hive -hiveconf hive.root.logger=INFO,console

这一设定对本次启动的Session(对于Server方式启动。则是全部请求的Sessions)有效。

3.  參数声明

set mapred.reduce.tasks=100;

这一设定的作用域也是Session级的

二、使用hive一些注意的地方

1.  Hive使用的字符集默认是UTF-8。hive中没有转换字符编码的这样的函数

hive.exec.compress.output 这个參数, 默认是 false。

可是非常多时候貌似要单独显式设置一遍。否则会对结果做压缩的,假设你的这个文件后面还要在hadoop下直接操作, 那么就不能压缩了

2.  Join中处理null值的语义差别

这里的特殊逻辑指的是,Hive的Join中,作为Joinkey的字段比較。null=null是有意义的。且返回值为true。检查下面查询:

select u.uid, count(u.uid)

from t_weblog l join t_user u on (l.uid = u.uid) groupby u.uid;

查询中,t_weblog表中uid为空的记录将和t_user表中uid为空的记录做连接。即l.uid = u.uid=null成立。

假设须要与标准一致的语义。我们须要改写查询手动过滤null值的情况:

select u.uid, count(u.uid)

from t_weblog l join t_user u

on (l.uid = u.uid and l.uid is not null and u.uid is notnull)

group by u.uid;

实践中,这一语义差别也是常常导致数据倾斜的原因之中的一个。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/115574.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • idea配置JDK、Tomcat 环境

    idea配置JDK、Tomcat 环境

    2021年9月30日
    127
  • linux卸载wine qq,ubuntu安装wineQQ

    linux卸载wine qq,ubuntu安装wineQQUbuntu系发行版安装deepinwineQQ的步骤第1步,安装deepin-wine环境:上https://github.com/wszqkzqk/deepin-wine-ubuntu页面下载zip包(或用git方式克隆),解压到本地文件夹,在文件夹中打开终端,输入sudosh./install.sh一键安装。一些小问题的解决方法0,安装之后找不到在哪里启动:安装完deepin.com…

    2025年9月21日
    11
  • BM3D算法学习

    BM3D算法学习来源:BM3D算法学习-知乎(zhihu.com)作者:爱酷的胡巴前些日子在学习图像降噪的算法,自然而然的发现了这篇里程碑式的作品,“BM3D”3D块匹配降噪算法,想来时间也久,赶紧再写下来,以免过后忘记。在学习的过程中,由于没学过数字图像处理,学起来还是挺墨迹的,前前后后得有四五天吧,才算整个大差不差,期间看了许多前辈的博客和代码,也总算有些许的进步和理解,特此感…

    2022年5月22日
    76
  • keil_lic.exe注册机使用

    keil_lic.exe注册机使用第一步:以管理员身份运行keil5第二步:打开File中的LicenseManagement第三步:复制CID第四步:选择对应的Target为ARM,粘贴CID,复制生成的注册码第五步:将注册码粘贴到这,就ok了百度云网盘:链接:https://pan.baidu.com/s/1OqQmbpIQvqtHv2TFAp7a_Q提取码:l3v6希望能帮到各位朋友…

    2022年6月10日
    264
  • linux shell 文件内容,Linux用shell修改文件内容[通俗易懂]

    linux shell 文件内容,Linux用shell修改文件内容[通俗易懂]sed-i’s/abc/xxx/g’fileabc修改前的字符串xxx是修改后的字符串file是要被修改的文件例如:我有一个文件是map_server#!/bin/bash#chkconfig:23451090#description:StartsandStopstheMapServer.DIRECTORY=xxxxxxMAPSERVER_HOME=/usr/map/ma…

    2022年7月26日
    6
  • python 基尼系数_Python计算

    python 基尼系数_Python计算代码实现套用公式:defgini(a:int,b:int)->float:return1-pow(a/(a+b),2)-pow(b/(a+b),2)defgini_total(a:int,b:int,c:int,d:int)->float:return(a+b)/(a+b+c+d)*gini(a,b)+(c+d)/(a+b+c+d)*gini(c,d)print(gini(13,98))print(g

    2022年8月31日
    8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号