hive是一个数据仓库基础架构_数据仓库ods层和dw层的区别

hive是一个数据仓库基础架构_数据仓库ods层和dw层的区别软件环境Hadoop2.6.0-cdh5.9.0Hive1.1.0-cdh5.9.0Zookeeper3.4.5-cdh5.9.0需求背景数据来源是将8台服务器日志各自压缩成*.gz(8个gz文件)后,按天和小时分区传入到HDFS上,然后通过创建HiveODS外部表加载到表对应分区,这样一天下来会生产192个gz文件,gz文件是不能进行切分所以查询一天则会产生192

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

  • 软件环境

Hadoop 2.6.0-cdh5.9.0
Hive 1.1.0-cdh5.9.0
Zookeeper 3.4.5-cdh5.9.0

  • 需求背景

数据来源是将8台服务器日志各自压缩成*.gz(8个gz文件)后,按天和小时分区传入到HDFS上,然后通过创建Hive ODS外部表加载到表对应分区,这样一天下来会生产192个gz文件,gz文件是不能进行切分所以查询一天则会产生192个Map数,导致后结数据处理性能与资源占用都比较大。需要进行优化>如下几点:

  1. 存储后数据可切分
  2. 数据存储压缩率高
  3. 数据加载速度要快
  • 技术方案
  1. 通过创建TTexfFile存储格式ODS临时表外部表,将HDFS上的文件目录映射到外部表
create table temp.TempTableName(
 col1 string comment 'col1'
,col2 string comment 'col2' 
) partitioned by (p_dt string, p_hours string)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
with serdeproperties ("ignore.malformed.json"="true")
stored as textfile
;

Alter table temp.TempTableName add partition (p_dt='20141101',p_hours='00') location '/ods/TempTableName/20141101/00';
  1. 在ODS层创建ORC存储格式相应的表,将临时外部表数据插入到ODS表
create table ods.TableName(
 col1 string comment 'col1'
,col2 string comment 'col2' 
) partitioned by (p_dt string, p_hours string)
stored as orc
;
insert overwrite table TableName partition(p_dt='20141101',p_hours='00')
select * from TempTableName where p_dt='20141101' and p_hours='00'
  1. 数据导入完闭,后续基本ODS进行操作即可

ss

  • 方案优点
  1. 数据可分割
  2. 数据压缩率90%左右
  • 方案缺点
  1. 性能比以前慢(如是ODS只操作一次建议不采用此方案)
  2. 维护成本提高
  • 文章参考
    https://cwiki.apache.org/confluence/display/Hive/CompressedStorage

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/188948.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • CDHD驱动器——ServoStudio配置高创伺服速度模式不转

    CDHD驱动器——ServoStudio配置高创伺服速度模式不转1.摘要速度模式(LED灯显示为0)时,电机不转,但是在位置模式(LED灯显示为8)却可以正常运转。2.设置设置commode=1,fbitprd=1,fbitidx=-3,modmode=

    2022年8月4日
    8
  • Altium Designer初学教程(一)[通俗易懂]

    Altium Designer初学教程(一)[通俗易懂]安装说明及如何激活并申请添加license安装说明及如何激活并申请添加license我们提供的安装光盘可以在每台电脑上安装AltiumDesigner软件。我们为每个单位或公司产生一个用户号,我们为每台电脑产生一个激活码,用户在软件的license界面里输入用户号和激活码,软件将自动产生本机的一个二进制信息文件,用这个信息文件通过电子邮件到我们的服务器上换取本机的licens…

    2022年7月13日
    21
  • oracle ora-12154问题总结,ORA-12154记一次细节错误

    oracle ora-12154问题总结,ORA-12154记一次细节错误报错内容:[oracle@standby~]$rmantargetsys/oracle@standbyauxiliarysys/oracle@orclRecoveryManager:Release11.2.0.3.0-ProductiononFriMay2711:59:452016Copyright(c)1982,2011,Oracleand/orit…

    2022年7月19日
    11
  • 分析了10万条B站UP主数据后,我知道了成为百万粉丝UP主的一些秘密「建议收藏」

    分析了10万条B站UP主数据后,我知道了成为百万粉丝UP主的一些秘密「建议收藏」前几天一位好朋友入了B站,问我如何才能成为一名百万粉丝的up主。这不,于是我做了这篇的一些分析,知道了成为百万粉丝up主的一些小秘密。还做了一个昵称生成器,给其昵称起名提供建议。这是她的b站视频截图:关于昵称起名我的想法是这样,是我们把B站这些百万粉丝大佬的昵称分析一下成分构成,根据相关性随机起个名,是不是就有百万粉丝up主昵称的那味了?上面截图是她改名前的昵称,是否会改名,改名后叫什么咱们拭目以待。咱们现在就开始爬取整整:B站up主信息爬取直接通过b站首页去爬是很不方便的,这里我找到了两个第

    2022年6月12日
    49
  • 小程序 轮播图

    小程序 轮播图轮播图:cssswiper{height:400rpx;}swiper-itemimage{width:100%;height:100%;}.swiper-container{position:relative;margin-top:-300rpx;}.swiper-container.swiper{height:300r…

    2022年5月11日
    39
  • STL算法——概述及算法概览[通俗易懂]

    STL算法——概述及算法概览[通俗易懂]

    2022年8月18日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号