大数据平台的元数据管理

大数据平台的元数据管理【概念解释】1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据占用的磁…

大家好,又见面了,我是你们的朋友全栈君。

概念解释

1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。
2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据占用的磁盘空间等等。

为什么要做元数据管理

1,管理元数据的好处——有助于用户更高效地分析数据,有助于系统和业务的优化,有助于数据的安全管控,有助于数据生命周期的管理,有助于任务问题的排查,有助于数据质量的保证。
2,怎样发挥元数据的价值——元数据信息通过服务的形式(例如REST接口)提供给上下游系统使用。

哪些数据纳入元数据管理

这个问题也就是元数据管理到底是管理什么。对大数据开发平台来说,常见的元数据包括以下6点:
1,数据表的结构schema信息
(1) SQL或者NoSQL中的表视图信息,例如MySQL中可以通过SHOW CREATE TABLE table_name来获取表结构;hive中可以用HQL的SHOW PARTITIONS table_name获取该表的分区信息
(2) 表结构的变迁记录,例如mysql中的某表增/减了一个什么字段、修改了什么字段等信息
2,数据占用的磁盘空间
(1) 记录表数据占用的空间的大小以及增长趋势
(2) 新增了几张表、删除了几张表、创建了多少个分区
3,数据的读写记录
(1) 记录修改表的是什么人,以及什么时候修改的
(2) 记录哪些数据已经长时间没有被读取或更新了
4,数据的权限归属
(1) 哪些人有权限查阅数据
(2) 哪些人有权限管理数据
5,数据的血缘关系
(1) 数据的上游和下游是哪里,也就是数据从哪来的、将会用到哪里去
(2) 收集数据的血缘关系的作用——如果某数据有问题,可检查它的上游数据以便定位问题;也有助于理清处理这些数据的任务之间是如何互相依赖的
6,数据的业务属性
(1) 数据表做什么用的
(2) 数据表中各个字段的业务含义、统计方式
(3) 具体数据的业务部门归属
(4) 每个数据表分别是由哪位开发者负责的
(5) 脚本逻辑的变迁记录、变迁原因

如何收集元数据

上述元数据信息大部分需要人工录入,但是最好是整合到业务开发流程中,让它们成为业务开发的必须环节。比如说,在修改任务脚本时或修改表格schema时强制开发者填写。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140328.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • arm汇编指令详解带实例_汇编buf指令

    arm汇编指令详解带实例_汇编buf指令ARM的编程模式和七种模式基本设定架构(32位)约定Byte(字节):8bitsHalfword(半字):16bits(2byte)Word(字):32bits(4byte)指令集ARM指令集(32-bit)Thumb指令集(16-bit)Thunmb指令集(16&32bit)不考虑工作模式种类:七种非特权模式(Normal:普通模式)User(用户模式):非特权模式,大部分时候在这个模式下工作特权模式(Privilege:特

    2022年10月14日
    3
  • 逻辑与(&&)、逻辑或(||)、按位与(&)、按位或(|)、按位异或(^)、按位取反(~)

    逻辑与(&&)、逻辑或(||)、按位与(&)、按位或(|)、按位异或(^)、按位取反(~)按位与计算方法:转换为二进制后,不够的位数补齐,然后通过0为false1为true的规则,对每一位之间进行与的运算(只有true+true才为true),最后再将数转回十进制。按位或计算方法:转换为二进制后,不够的位数补齐,然后通过0为false1为true的规则,对每一位之间进行或的运算(只有false+false才为false),最后再将数转回十进制。异或运算这是一种可以不用加号…

    2022年6月6日
    37
  • 百度文库免费下载方法,亲测可用!建议收藏![通俗易懂]

    百度文库免费下载方法,亲测可用!建议收藏![通俗易懂]后台经常有小伙伴问能不能下载百度文库的于是,我就随手搜了一下百度文库下载结果网上各种方法但是其中靠谱的并不多要么就是需要充钱买点要么就是下载下来格式混乱我亲手试了十多款免费下载的方法从中筛选出了几个靠谱的分享给大家1baiduvvv工具地址:http://wenku.baiduvvv.com/doc/该工具是V2EX网站上的大神发布的一款工具大神对自己的工具是这么介…

    2022年4月30日
    88
  • java 中缀转后缀(逆波兰)[通俗易懂]

    java 中缀转后缀(逆波兰)

    2022年1月27日
    49
  • 麦克风阵列声源定位实现[通俗易懂]

    麦克风阵列声源定位实现[通俗易懂]麥克風陣列音源定位系統是利用麥克風陣列接收音訊,然後經由適當的演算法估算出音源入射麥克風陣列的方向角,即判斷出音源的位置方向。本專題著重於此演算法的程式撰寫,並實際測試二維及三維空間中單一音源入射的方向角,期望於演算速度及準確度上能有最好的效果。此系統完成後可搭配攝影機應用於視訊會議,隨時定位出發言者;也可應用於監視系統、玩具等。

    2022年9月17日
    1
  • emgucv 抠图[通俗易懂]

    我的环境的KinectSDK2.0+EmguCV3.0.0依旧还是WinFrom和ImageBox因为需要用到BodyIndex的数据,但BodyIndex的分辨率和RGB图像的分辨率不同,所以需要用的CoordinateMap类中的坐标转换函数。然后直接对colorimage的像素点进行操作。同样,需要用的指针,要把项目调整为允许不安全的代码。代码和注释如

    2022年4月12日
    83

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号