大数据平台建设路径

大数据平台建设路径数字化转型这几年成为了集团公司或大型企业寻求业务突破的重要手段,而且各行各业都不乏成功案例,例如金融行业的建设银行、招商银行、平安保险等,还有一些生动的例子,例如百丽鞋业。而国外的经典案例就是亚马逊和特斯拉。集团客户动静都很大,首先要做咨询规划,必须跟上投入和管理配套,然后可以开始平台建设,最终开始应用,赋能各业务线和产品线。从技术的角度,一个完整的大数据平台通常会三期建设。先看下图:蓝色部分是第一期内容,绿色部分是第二期内容,橙色部分是第三期内容。第一步,先建设大数据基础平台。首要满足的是数据汇聚

大家好,又见面了,我是你们的朋友全栈君。

数字化转型这几年成为了集团公司或大型企业寻求业务突破的重要手段,而且各行各业都不乏成功案例,例如金融行业的建设银行、招商银行、平安保险等,还有一些生动的例子,例如百丽鞋业。而国外的经典案例就是亚马逊和特斯拉。

集团客户动静都很大,首先要做咨询规划,必须跟上投入和管理配套,然后可以开始平台建设,最终开始应用,赋能各业务线和产品线。

从技术的角度,一个完整的大数据平台通常会三期建设。先看下图:蓝色部分是第一期内容,绿色部分是第二期内容,橙色部分是第三期内容。
在这里插入图片描述

第一步,先建设大数据基础平台。首要满足的是数据汇聚、数据存储、数据计算三大块功能,也是最内核的功能。主要内容有数据仓库组建、数据抽取(ETL)、作业调度、数据服务、以及应对大规模节点和集群的监控运维管理功能等。当然还应包含用户、权限、数量统计等基础功能。根据目标数据量和SQL复杂度(例如多表JOIN)来规划采购内容,功能全、系统稳定、性能高、价格合理是技术产品选型的核心考量。这两年和长远看还要考虑国产化和信创。

第二步,基于大数据基础平台建设数据治理等功能。目标是把汇聚进来的海量数据,往往又是异构的数据经过预处理,再进一步进行数据治理和数据管理(二者区别参看CMMI的DMM)。主要内容有元数据管理、数据资产管理、数据质量管理、数据标准管理,以及数据全生命周期管理和必不可少的数据安全等。这里值得探讨的是,做平台的公司往往具备很强的抽象归纳能力,做的是下层的通用能力部分;但这部分内容往往还需要结合行业应用,有些行业侧的供应商也具备上层的行业侧定制化能力,并已经或初步形成了自己的产品。但若论通用能力设计和保障,特别是到十亿条(TB级别)以上数据量的分布式计算(JOIN等),还是需要硬核产品,这就自然而然来到了双方合作的契合点。

第三步,扩建大数据平台创新应用。主要内容是人工智能(包含机器学习和深度学习)、知识谱图(图数据库)、流计算和消息队列等。当然人工智能和图数据库本身也是硬核技术,也可以是平台,这要看所在公司的产品定位和赛道。而从数据智能这个角度看,数据仓库是底座,人工智能和知识图谱都算是一个应用,基于数据仓库优秀的算力,来挖掘数据间隐藏的数据关系,例如金融里的不带标签的反洗钱场景,公安行业的犯罪团伙多层关系网络挖掘。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/131672.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 使用pydicom实现Dicom文件读取与CT图像窗宽窗位调整

    使用pydicom实现Dicom文件读取与CT图像窗宽窗位调整1.前言为了能够在Labelme上对Dicom图像进行编辑,这里对python环境下Dicom文件的读取进行了研究。在Dicom图像中CT的窗宽窗位是一个很重要的概念,但是找了半天在pydicom中没有相关设置函数,这里跟DCMTK还不一样。但是可以根据两个tag得到CT图像的CT值,那就是(0028|1052):rescaleintercept和(0028|1053):rescales…

    2022年6月26日
    142
  • JMESPath_正则表达式语法

    JMESPath_正则表达式语法前言JMESPath是JSON的查询语言。您可以从JSON文档中提取和转换元素官方文档:https://jmespath.org/tutorial.html基本表达式JMESPath用的最多的

    2022年7月30日
    9
  • 关于 python 的缩进「建议收藏」

    关于 python 的缩进「建议收藏」python对缩进是敏感的,而大多教程对应缩进也只是几句话带过,对新手十分不友好,本文就把python常见的缩进问题做了一些整理。

    2022年4月19日
    72
  • 不止一个背包的背包问题_背包问题 java

    不止一个背包的背包问题_背包问题 java有 N 个物品和一个容量是 V 的背包。物品之间具有依赖关系,且依赖关系组成一棵树的形状。如果选择一个物品,则必须选择它的父节点。如下图所示:如果选择物品5,则必须选择物品1和2。这是因为2是5的父节点,1是2的父节点。每件物品的编号是 i,体积是 vi,价值是 wi,依赖的父节点编号是 pi。物品的下标范围是 1…N。求解将哪些物品装入背包,可使物品总体积不超过背包容量,且总价值最大。输出最大价值。输入格式第一行有两个整数 N,V,用空格隔开,分别表示物品个数和背包容量。接下来有 N

    2022年8月9日
    3
  • apache tomcat安装及配置教程_iphone配置实用工具在哪下载

    apache tomcat安装及配置教程_iphone配置实用工具在哪下载一、下载tomcat下载链接:https://tomcat.apache.org/1、进入tomcat官网后,选择需要下载的版本。我使用的是tomcat9,所以在这我选择tomcat92、选择z

    2022年8月3日
    5
  • 【20】进大厂必须掌握的面试题-50个Hadoop面试

    【20】进大厂必须掌握的面试题-50个Hadoop面试

    2020年11月13日
    180

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号