hive中数据类型转换_csv文件导入sqlserver数据库中

hive中数据类型转换_csv文件导入sqlserver数据库中1.类型映射关系mysql和hive中的数据类型存在差异,在mysql集成数据到hive中这样的场景下,我们希望在hive中的数据是贴源的,所以在hive中希望创建和mysql结构一致的表。mysql到hive数据类型映射参考如下:mysql数据类型hive数据类型整型bigintBIGINT整型intBIGINT整型smallintBIGINT整型tinyintBIGINT浮点型decimaldecimal浮点型double

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

1.类型映射关系

mysql和hive中的数据类型存在差异,在mysql集成数据到hive中这样的场景下,我们希望在hive中的数据是贴源的,所以在hive中希望创建和mysql结构一致的表。

mysql到hive数据类型映射参考如下:

mysql数据类型 hive数据类型
整型 bigint BIGINT
整型 int BIGINT
整型 smallint BIGINT
整型 tinyint BIGINT
浮点型 decimal decimal
浮点型 double DOUBLE
浮点型 float DOUBLE
二进制 binary BINARY
二进制 varbinary BINARY
字符 char STRING
字符 varchar STRING
字符 mediumtext STRING
字符 text STRING
时间 datetime STRING
时间 time STRING
时间 timestamp STRING
时间 date date
json json MAP<STRING,STRING>

2.问题注意:

1.问题:

用公司的大数据平台(DataX)导数,已经开发上线一个多月的一批报表,突然有同事说有个报表数据不准。出在时间字段上。
分析:
1、先看了原数据MySQL字段类型为datetime,目标字段为timestamp类型;
2、经发现所有时间的差距都是8小时,怀疑是因为时区转换的原因;
3、对比其他表,看看是大范围现象还是特殊情况,发现其他的同样情况字段的一样没有问题,也有改变为string字段类型的也没有问题;

2.解决办法

经过对比:发现DATAX(sqoop也类似)在转换MySQL datatime字段类型为hive的timestamp时会出现问题:默认先转为零食去对应时间戳,再转换为北京市区时间,就会使时间多8小时。
解决办法有两个:
1、转换为string类型;
2、继续用timestamp类型,但是需要行存储(即text存储)。

遇见时间类型转换问题时要小心,保守最好是string,简单的比较大小不会影响后续计算。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/191079.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 嵌套查询效率_sql嵌套查询例子

    嵌套查询效率_sql嵌套查询例子嵌套查询的查询优化TableofContents1.嵌套查询的分类和优化概述2.Kim:OnOptimizinganSQL-likeNestedQuery2.1.嵌套查询的分类2.1.1.A类2.1.2.N类2.1.3.J类2.1.4.JA类2.1.5.D类2.2.嵌套查询的优化3.Kiessling,SQ

    2022年8月30日
    2
  • Java内存结构和Java内存模型「建议收藏」

    Java内存结构和Java内存模型「建议收藏」Java内存结构部分摘抄自:https://www.jianshu.com/p/73df0ac60551首先Java内存结构其实是JVM内存结构我们都知道,我们的java代码其实是不能直接运行的,他要经过一系列的步骤。我们的java文件,首先要经过编程成为class文件,然后通过类装载器加载到jvm中去执行。这个jvm(红色虚线框起来的这部分)就是java运行时…

    2022年7月8日
    18
  • log4j使用教程详解(怎么使用log4j2)_log4j配置详解

    log4j使用教程详解(怎么使用log4j2)_log4j配置详解日志是应用软件中不可缺少的部分,Apache的开源项目Log4j是一个功能强大的日志组件,提供方便的日志记录。在apache网站:jakarta.apache.org/log4j可以免费下载到Log4j最新版本的软件包。

    2025年7月29日
    1
  • navicat15激活码(注册激活)

    (navicat15激活码)最近有小伙伴私信我,问我这边有没有免费的intellijIdea的激活码,然后我将全栈君台教程分享给他了。激活成功之后他一直表示感谢,哈哈~https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~0X1Z…

    2022年3月28日
    118
  • dumpbin的命令

    dumpbin的命令1所有的命令用法:DUMPBIN[选项][文件]  选项:   /ALL   /ARCHIVEMEMBERS   /CLRHEADER   /DEPENDENTS   /DIRECTIVES   /DISASM[:{BYTES|NOBYTES}]   /ERRORREPORT:{NONE|PROMPT|QU

    2022年6月19日
    37
  • 分布式系统中CAP原理[通俗易懂]

    分布式系统中CAP原理[通俗易懂]分布式系统CAP原理分布式系统发开虽然有点很多但是并不是完美的,CAP原理就是其中的体现之一。CAP原理:指的是在一个分布式系统中,Consistency(一致性)、Availability(可用性)、Partitontolerance(分区容忍性),三者不可得兼。一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。简单说就是所有节点在同一时刻的数据完全一致,这就意味着节点越…

    2022年5月19日
    38

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号