大数据平台的元数据管理

大数据平台的元数据管理【概念解释】1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据占用的磁…

大家好,又见面了,我是你们的朋友全栈君。

概念解释

1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。
2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据占用的磁盘空间等等。

为什么要做元数据管理

1,管理元数据的好处——有助于用户更高效地分析数据,有助于系统和业务的优化,有助于数据的安全管控,有助于数据生命周期的管理,有助于任务问题的排查,有助于数据质量的保证。
2,怎样发挥元数据的价值——元数据信息通过服务的形式(例如REST接口)提供给上下游系统使用。

哪些数据纳入元数据管理

这个问题也就是元数据管理到底是管理什么。对大数据开发平台来说,常见的元数据包括以下6点:
1,数据表的结构schema信息
(1) SQL或者NoSQL中的表视图信息,例如MySQL中可以通过SHOW CREATE TABLE table_name来获取表结构;hive中可以用HQL的SHOW PARTITIONS table_name获取该表的分区信息
(2) 表结构的变迁记录,例如mysql中的某表增/减了一个什么字段、修改了什么字段等信息
2,数据占用的磁盘空间
(1) 记录表数据占用的空间的大小以及增长趋势
(2) 新增了几张表、删除了几张表、创建了多少个分区
3,数据的读写记录
(1) 记录修改表的是什么人,以及什么时候修改的
(2) 记录哪些数据已经长时间没有被读取或更新了
4,数据的权限归属
(1) 哪些人有权限查阅数据
(2) 哪些人有权限管理数据
5,数据的血缘关系
(1) 数据的上游和下游是哪里,也就是数据从哪来的、将会用到哪里去
(2) 收集数据的血缘关系的作用——如果某数据有问题,可检查它的上游数据以便定位问题;也有助于理清处理这些数据的任务之间是如何互相依赖的
6,数据的业务属性
(1) 数据表做什么用的
(2) 数据表中各个字段的业务含义、统计方式
(3) 具体数据的业务部门归属
(4) 每个数据表分别是由哪位开发者负责的
(5) 脚本逻辑的变迁记录、变迁原因

如何收集元数据

上述元数据信息大部分需要人工录入,但是最好是整合到业务开发流程中,让它们成为业务开发的必须环节。比如说,在修改任务脚本时或修改表格schema时强制开发者填写。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140328.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • IJ实现侧边栏单独搜索

    IJ实现侧边栏单独搜索第一步任意点击一个第二步输入要搜索的单词

    2022年6月27日
    27
  • Xmn 与 NewSize 设置说明

    Xmn与 NewSize都是设置新生代的内存大小。经过测试,写在最后的一个参数起作用。下面是我的测试信息。第一次参数设置:    内存信息:S0C(13056)+S1C(13056)+EC(104960)=131072K=128M第二次参数设置:内存信息:S0C(20480)+S1C(20480)+EC(163840)=204800K=200M…

    2022年4月8日
    156
  • REST风格URI

    REST风格URI定义 REST 是一个标准 一种规范 遵循 REST 风格可以使开发的接口通用 便于调用者理解接口的作用 规则 GET 用来获取资源 查 POST 用来新建资源 增 PUT 用来更新资源 改 DELETE 用来删除资源 删对比 http localhost 8080 myweb getDogs gt GET rest api dogs 获取所有小狗狗 http localhost 8080 myweb addDogs gt POST rest ap

    2025年12月13日
    5
  • GSLB功能

    GSLB功能GSLB应为一个高效率的智能的DNS服务器,并且可以在基于负载均衡算法的基础上对定义好的域名进行解析。可从如下角度来分析GSLBDNS功能以及标准性对GSLB架构设计算法设计1.严格遵守DNS的相关标准。概括的说是性能优良,功能全面。做为负载均衡设备,性能始终是非常重要的。要能实习高负载大流量下对DNS请求的迅速应答。在功能实现方面DNS相关RFC(rfc1034,…

    2022年6月8日
    84
  • 学了那么久爬虫,快来看看这些反爬,你能攻破多少?【对应看看自己修炼到了哪个等级~】

    ????在爬虫技术泛滥的今天,有不少小伙伴或是因为兴趣,或是因为工作所需,决定去学习爬虫,一入爬虫坑~????《一篇万字博文带你入坑爬虫这条不归路【万字图文】》????<-????但是,从最近我的技术交流群内粉丝们交流的一些问题中,我发现了一个很严重很严重的大问题——他们只是单纯想爬,却连一些最基础的反爬技术都不知晓。????->????《两万字博文教你python爬虫requests库【详解篇】》《万字博文教你python爬虫BeautifulSoup库【详解篇】》《万字博

    2022年4月7日
    39
  • 推荐算法中的MF, PMF, BPMF[通俗易懂]

    推荐算法中的MF, PMF, BPMF[通俗易懂]1.矩阵分解(MF)目前推荐系统中用的最多的就是矩阵分解方法,在NetflixPrize推荐系统大赛中取得突出效果。以用户-项目评分矩阵为例,矩阵分解就是预测出评分矩阵中的缺失值,然后根据预测值以某种方式向用户推荐。常见的矩阵分解方法有基本矩阵分解(basicMF),正则化矩阵分解)(RegularizedMF),基于概率的矩阵分解(PMF)等。利用代数中SVD方法对矩阵进行分解。奇异值

    2022年5月22日
    41

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号