大数据平台建设路径

大数据平台建设路径数字化转型这几年成为了集团公司或大型企业寻求业务突破的重要手段,而且各行各业都不乏成功案例,例如金融行业的建设银行、招商银行、平安保险等,还有一些生动的例子,例如百丽鞋业。而国外的经典案例就是亚马逊和特斯拉。集团客户动静都很大,首先要做咨询规划,必须跟上投入和管理配套,然后可以开始平台建设,最终开始应用,赋能各业务线和产品线。从技术的角度,一个完整的大数据平台通常会三期建设。先看下图:蓝色部分是第一期内容,绿色部分是第二期内容,橙色部分是第三期内容。第一步,先建设大数据基础平台。首要满足的是数据汇聚

大家好,又见面了,我是你们的朋友全栈君。

数字化转型这几年成为了集团公司或大型企业寻求业务突破的重要手段,而且各行各业都不乏成功案例,例如金融行业的建设银行、招商银行、平安保险等,还有一些生动的例子,例如百丽鞋业。而国外的经典案例就是亚马逊和特斯拉。

集团客户动静都很大,首先要做咨询规划,必须跟上投入和管理配套,然后可以开始平台建设,最终开始应用,赋能各业务线和产品线。

从技术的角度,一个完整的大数据平台通常会三期建设。先看下图:蓝色部分是第一期内容,绿色部分是第二期内容,橙色部分是第三期内容。
在这里插入图片描述

第一步,先建设大数据基础平台。首要满足的是数据汇聚、数据存储、数据计算三大块功能,也是最内核的功能。主要内容有数据仓库组建、数据抽取(ETL)、作业调度、数据服务、以及应对大规模节点和集群的监控运维管理功能等。当然还应包含用户、权限、数量统计等基础功能。根据目标数据量和SQL复杂度(例如多表JOIN)来规划采购内容,功能全、系统稳定、性能高、价格合理是技术产品选型的核心考量。这两年和长远看还要考虑国产化和信创。

第二步,基于大数据基础平台建设数据治理等功能。目标是把汇聚进来的海量数据,往往又是异构的数据经过预处理,再进一步进行数据治理和数据管理(二者区别参看CMMI的DMM)。主要内容有元数据管理、数据资产管理、数据质量管理、数据标准管理,以及数据全生命周期管理和必不可少的数据安全等。这里值得探讨的是,做平台的公司往往具备很强的抽象归纳能力,做的是下层的通用能力部分;但这部分内容往往还需要结合行业应用,有些行业侧的供应商也具备上层的行业侧定制化能力,并已经或初步形成了自己的产品。但若论通用能力设计和保障,特别是到十亿条(TB级别)以上数据量的分布式计算(JOIN等),还是需要硬核产品,这就自然而然来到了双方合作的契合点。

第三步,扩建大数据平台创新应用。主要内容是人工智能(包含机器学习和深度学习)、知识谱图(图数据库)、流计算和消息队列等。当然人工智能和图数据库本身也是硬核技术,也可以是平台,这要看所在公司的产品定位和赛道。而从数据智能这个角度看,数据仓库是底座,人工智能和知识图谱都算是一个应用,基于数据仓库优秀的算力,来挖掘数据间隐藏的数据关系,例如金融里的不带标签的反洗钱场景,公安行业的犯罪团伙多层关系网络挖掘。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/131672.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • SQL视图索引

    SQL视图索引在视图上创建索引的另一个好处是:查询优化器开始在查询中使用视图索引,而不是直接在FROM子句中命名视图。这样一来,可从索引视图检索数据而无需重新编码,由此带来的高效率也使现有查询获益。有关更多信息,请参见在视图上使用索引。在视图上创建聚集索引可存储创建索引时存在的数据。索引视图还自动反映自创建索引后对基表数据所做的更改,这一点与在基表上创建的索引相同。当对基表中的数据进行更改时,索引视图中

    2022年7月22日
    11
  • open class and closed class_demo怎么发音

    open class and closed class_demo怎么发音importos#给一个列表,生成文件夹,并在其中新建txt文件,写入文件名内容#例如彭于晏文件夹下有彭于晏.txt里面有彭于晏三个字name_list=[“彭于晏”,”周润发”,”周杰伦”,”陈道明”,”成龙”,”李连杰”,”阿里”,”百度”,”字节跳动”]#批量新建文件夹的关键formkdir()fornameinname_list:os.mkdir(name)#makedirs()通用file_name=name+”.txt”

    2025年8月19日
    2
  • WSAStartup函数的用途

    我们先来看看WSAStartup函数的原型intPASCALFARWSAStartup(WORDwVersionRequired,LPWSADATAlpWSAData);    可以这么理解,第一个参数提供必要信息(为了加载套接字库),第二个参数获取相关信息(获取相关信息)。看看下面的程序就明白了(其中wVersion比较重要):          WSACl

    2022年4月7日
    55
  • RPC协议了解

    RPC协议了解1.RPC概述RPC(RemoteProcedureCallProtocol)远程过程调用协议。通俗的描述是:客户端在不知道调用细节的情况下,调用存在于远程计算机上的某个过程或函数,就像调用本地应用程序中的一样。正确的描述是:一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。2.RPC特点:2.1)RPC是协议:协议意味着规范。目前典型的RPC实现包括Dubbo、Thrift、Herrty等。但这些实现往往都会附加其他重要功能,例如Dubbo还包括服务管理、访问权限

    2022年5月19日
    63
  • dirsearch讲解_mv命令使用

    dirsearch讲解_mv命令使用dirsearch用法github地址参数选项(机翻)强制:字典设置:常规设置:请求设置:github地址https://github.com/maurosoria/dirsearch参数选项(机翻)强制:Mandatory:-uURL,–url=URL 目标URL-lFILE,–url-list=FILE 目标URL列表文件–stdin TargetURLlistfromSTDIN–cidr=CIDR

    2022年10月5日
    2
  • SQL Server 2014聚集列存储索引

    SQL Server 2014聚集列存储索引

    2022年3月13日
    41

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号