hive是一个数据仓库基础架构_数据仓库ods层和dw层的区别

全栈程序员-站长 • 2026年4月15日上午8:34 • 未分类 • 阅读 7

hive是一个数据仓库基础架构_数据仓库ods层和dw层的区别软件环境Hadoop2.6.0-cdh5.9.0Hive1.1.0-cdh5.9.0Zookeeper3.4.5-cdh5.9.0需求背景数据来源是将8台服务器日志各自压缩成*.gz(8个gz文件)后，按天和小时分区传入到HDFS上，然后通过创建HiveODS外部表加载到表对应分区，这样一天下来会生产192个gz文件，gz文件是不能进行切分所以查询一天则会产生192

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

软件环境

Hadoop 2.6.0-cdh5.9.0
Hive 1.1.0-cdh5.9.0
Zookeeper 3.4.5-cdh5.9.0

需求背景

数据来源是将8台服务器日志各自压缩成*.gz(8个gz文件)后，按天和小时分区传入到HDFS上，然后通过创建Hive ODS外部表加载到表对应分区，这样一天下来会生产192个gz文件，gz文件是不能进行切分所以查询一天则会产生192个Map数，导致后结数据处理性能与资源占用都比较大。需要进行优化>如下几点：

存储后数据可切分

数据存储压缩率高

数据加载速度要快

技术方案

通过创建TTexfFile存储格式ODS临时表外部表，将HDFS上的文件目录映射到外部表

create table temp.TempTableName(
 col1 string comment 'col1'
,col2 string comment 'col2' 
) partitioned by (p_dt string, p_hours string)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
with serdeproperties ("ignore.malformed.json"="true")
stored as textfile
;

Alter table temp.TempTableName add partition (p_dt='20141101',p_hours='00') location '/ods/TempTableName/20141101/00';

在ODS层创建ORC存储格式相应的表，将临时外部表数据插入到ODS表

create table ods.TableName(
 col1 string comment 'col1'
,col2 string comment 'col2' 
) partitioned by (p_dt string, p_hours string)
stored as orc
;
insert overwrite table TableName partition(p_dt='20141101',p_hours='00')
select * from TempTableName where p_dt='20141101' and p_hours='00'

数据导入完闭，后续基本ODS进行操作即可

ss

方案优点

数据可分割
数据压缩率90%左右

方案缺点

性能比以前慢(如是ODS只操作一次建议不采用此方案)
维护成本提高

文章参考
https://cwiki.apache.org/confluence/display/Hive/CompressedStorage

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/188948.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

0xC000005读取发生访问冲突_vs读取访问权限冲突

上一篇 2026年4月15日上午8:31

nfs方式启动rootfs配置过程[通俗易懂]

下一篇 2026年4月15日上午8:37

cursor

利用DeepSeek提升技能[可运行源码]

利用DeepSeek提升技能[可运行源码]

Ai探索者
2026年3月12日
2
jmeter 通过beanshell获取变量

jmeter 通过beanshell获取变量第一种 1 测试计划输入用户自定义变量 2 添加 beanshellsam 通过 vars get 获取变量 vars get name vars put 赋值格式为 vars put key value 3 添加 debugsampler 添加查看结果树运行查看结果第二种 1 添加 beanshellsam 通过 test 方法返回结果和值 2 添加 debugsample

全栈程序员-站长
2026年3月18日
1
HBase开发： Java API 管理表

HBase开发： Java API 管理表头歌（JavaAPI管理表）答案我看网上都没有这一关的答案，就自己写了一个。

全栈程序员-站长
2022年7月16日
16
快速西门子PLC入门（适合零基础）[通俗易懂]

快速西门子PLC入门（适合零基础）[通俗易懂]快速西门子PLC入门（适合零基础）一、触点及线圈指令PLC梯形图语言的编程原则1、梯形图由多个梯级组成，每个线圈可构成一个梯级，每个梯级有多条支路，每个梯级代表一个逻辑方程；2、梯形图中的继电器、接点、线圈不是物理的，是PLC存储器中的位(1=0N；0=0FF)；编程时常开/常闭接点可无限次引用，线圈输出只能是一次；3、梯形图中流过的不是物理电流而是“概念电流”，只能从左向右流；4、用户程序的运算是根据PLC的输入/输出映象寄存器中的内容，逻辑运算结果可以立即被后面的程序使用；5、PLC的内部

全栈程序员-站长
2022年10月19日
4
报文、报文段、分组、包、数据报、帧、数据流的概念区别

报文、报文段、分组、包、数据报、帧、数据流的概念区别1 报文 message 我们将位于应用层的信息分组称为报文报文是网络中交换与传输的数据单元也是网络传输的单元报文包含了将要发送的完整的数据信息其长短不需一致报文在传输过程中会不断地封装成分组包帧来传输封装的方式就是添加一些控制信息组成的首部那些就是报文头 2 报文段 segment 通常是指起始点和目的地都是传输层的信息单元 3 分组包 packet 分组是在

全栈程序员-站长
2026年3月26日
3
一比一还原axios源码（二）—— 请求响应处理

上一章，我们开发了一些简单的代码，这部分代码最最核心的一个方法就是buildURL，应对了把对象处理成query参数的方方面面。虽然我们现在可以发起简单的请求了，但是第一，我们无法接收到服务器的响应，

全栈程序员-站长
2022年3月25日
45

发表回复

关注全栈程序员社区公众号