大数据开发步骤和流程「建议收藏」

大数据项目开发步骤:第一步:需求:数据的输入和数据的产出;第二步:数据量、处理效率、可靠性、可维护性、简洁性;第三步:数据建模;第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;第五步:再次思考大数据系统和企业IT系统的交互;第六步:最终确定选择、规范等;第七步:基于数据建模写基础服务代码;第八步:正式编写第一个模块;第九步:实现其它…

大家好,又见面了,我是你们的朋友全栈君。

大数据项目开发步骤:

第一步:需求:数据的输入和数据的产出;

第二步:数据量、处理效率、可靠性、可维护性、简洁性;

第三步:数据建模;

第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;

第五步:再次思考大数据系统和企业IT系统的交互;

第六步:最终确定选择、规范等;

第七步:基于数据建模写基础服务代码;

第八步:正式编写第一个模块;

第九步:实现其它的模块,并完成测试和调试等;

第十步:测试和验收;

大数据流程:

从流程角度上看,整个大数据处理可分成4个主要步骤。

         第一步是数据的搜集与存储;

         第二步是通过数据分析技术对数据进行探索性研究,包括无关数据的剔除,即数据清洗,与寻找数据的模式探索数据的价值所在;

         第三步为在基本数据分析的基础上,选择和开发数据分析算法,对数据进行建模。从数据中提取有价值的信息,这其实是真正的阿里云大数据的学习过程。这当中会涉及很多算法和技术,比如机器学习算法等;

         最后一步是对模型的部署和应用,即把研究出来的模型应用到生产环境之中。

                   1) 数据采集:定制开发采集程序,或使用开源框架flume

                  2) 数据预处理:定制开发mapreduce程序运行于hadoop集群

                  3) 数据仓库技术:基于hadoop之上的Hive

                  4) 数据导出:基于hadoop的sqoop数据导入导出工具

                  5) 数据可视化:定制开发web程序或使用kettle等产品

 

大数据开发步骤和流程「建议收藏」

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/126929.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 联想服务器R630 收集日志

    联想服务器R630 收集日志

    2021年8月30日
    107
  • pycharm2.5 永久激活码破解方法

    pycharm2.5 永久激活码破解方法,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月15日
    127
  • PAT乙级——Java合集

    PAT乙级——Java合集简介添加链接描述  刷PAT完全是闲的时候打发时间的,感觉还蛮有意思,有空了就写几道,基本都是Java实现的,目前为止才刷了五十多道题目,等刷完继续LeetCode,这里也会持续更新的。合集PAT1001害死人不偿命的(3n+1)猜想(15分)PAT1002写出这个数(20分)(Java)PAT1003我要通过!(20分)(Java)PAT1004成绩排名(20分)(Java实现)PAT1005继续(3n+1)猜想(25分)(Java)

    2022年6月13日
    26
  • DS图遍历–深度优先搜索

    DS图遍历–深度优先搜索

    2021年6月19日
    105
  • sql去掉重复的行_select去掉重复记录

    sql去掉重复的行_select去掉重复记录有重复数据主要有一下几种情况:1.存在两条完全相同的纪录这是最简单的一种情况,用关键字distinct就可以去掉example:selectdistinct*fromtable(表名)where(条件)2.存在部分字段相同的纪录(有主键id即唯一键)如果是这种情况的话用distinct是过滤不了的,这就要用到主键id的唯一性特点及groupby分组example:select*…

    2022年10月2日
    3
  • 消除IBM P750小机上的黄色报警灯[通俗易懂]

    消除IBM P750小机上的黄色报警灯[通俗易懂]IBM小机上亮黄灯了如何解决?对报警灯的说明:(1)硬件故障报警灯是一个发光二极管,它亮表示系统检测到了硬件故障,管理员应该注意。(2)硬件故障报警灯是非常敏感的,很多情况下并不是硬件产生了故障它才亮,例如热插拔某些信号线或者电缆,用户非正常关机等都可能导致该警报灯亮。(3)管理员应该首先检查系统错误日志errpt,看一下是否真的有硬件错误。如果没有,那么可以先将这个

    2022年6月15日
    46

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号