大数据开发步骤和流程「建议收藏」

大数据项目开发步骤:第一步:需求:数据的输入和数据的产出;第二步:数据量、处理效率、可靠性、可维护性、简洁性;第三步:数据建模;第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;第五步:再次思考大数据系统和企业IT系统的交互;第六步:最终确定选择、规范等;第七步:基于数据建模写基础服务代码;第八步:正式编写第一个模块;第九步:实现其它…

大家好,又见面了,我是你们的朋友全栈君。

大数据项目开发步骤:

第一步:需求:数据的输入和数据的产出;

第二步:数据量、处理效率、可靠性、可维护性、简洁性;

第三步:数据建模;

第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;

第五步:再次思考大数据系统和企业IT系统的交互;

第六步:最终确定选择、规范等;

第七步:基于数据建模写基础服务代码;

第八步:正式编写第一个模块;

第九步:实现其它的模块,并完成测试和调试等;

第十步:测试和验收;

大数据流程:

从流程角度上看,整个大数据处理可分成4个主要步骤。

         第一步是数据的搜集与存储;

         第二步是通过数据分析技术对数据进行探索性研究,包括无关数据的剔除,即数据清洗,与寻找数据的模式探索数据的价值所在;

         第三步为在基本数据分析的基础上,选择和开发数据分析算法,对数据进行建模。从数据中提取有价值的信息,这其实是真正的阿里云大数据的学习过程。这当中会涉及很多算法和技术,比如机器学习算法等;

         最后一步是对模型的部署和应用,即把研究出来的模型应用到生产环境之中。

                   1) 数据采集:定制开发采集程序,或使用开源框架flume

                  2) 数据预处理:定制开发mapreduce程序运行于hadoop集群

                  3) 数据仓库技术:基于hadoop之上的Hive

                  4) 数据导出:基于hadoop的sqoop数据导入导出工具

                  5) 数据可视化:定制开发web程序或使用kettle等产品

 

大数据开发步骤和流程「建议收藏」

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/126929.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月8日 下午9:40
下一篇 2022年4月8日 下午10:00


相关推荐

  • wireshark安装问题「建议收藏」

    [root@lc~]#tsharkRunningasuser”root”andgroup”root”.Thiscouldbedangerous.Capturingoneth0tshark:Unknownmessagefromdumpcap,trytoshowitasastring:/usr/sbin/dumpcap:sy…

    2022年4月15日
    128
  • Apache日志分析_shell命令行

    Apache日志分析_shell命令行

    2021年10月8日
    35
  • list集合转化为数组_list集合转成数组

    list集合转化为数组_list集合转成数组packagecom.loaderman.jdk5;importjava.util.ArrayList;importjava.util.Arrays;importjava.util.List;publicclassDemo4_AsList{/***数组转换成集合*数组转换成集合虽然不能增加或减少元素,但是可以用集合的思想操作数组,也就是说可以使用其他集合中的方法*/public…

    2026年1月23日
    3
  • 面试题:彻底弄懂函数防抖和节流

    面试题:彻底弄懂函数防抖和节流文章目录 1 函数防抖和节流 1 函数防抖和节流函数防抖和节流是优化高频率执行 js 代码的一种手段 js 中的一些事件如浏览器的 resize scroll 鼠标的 mousemove mouseover input 输入框的 keypress 等事件在触发时 会不断地调用绑定在事件上的回调函数 极大地浪费资源 降低前端性能 为了优化体验 需要对这类事件进行调用次数的限制

    2026年3月16日
    2
  • sublime插件开发教程(附源码)

    sublime插件开发教程(附源码)1.背景       虽然可能大神门在编辑器方面都比较偏向于vim之类的自由度更高的工具,但是从我个人来讲sublime这样的插件安装更方便的工具还是比较得心应手的。之前用sublime写英语作文,但是没有一个比较好用的timer,Package_Control里面的track_timer不能实时显示时间,所以博主就自己动手,写了这个插件,可以实时timer,记录时间。效果如下图,2.使

    2022年6月24日
    51
  • Windows CMD常用命令大全(值得收藏)

    Windows CMD常用命令大全(值得收藏)WindowsCMD常用命令大全前言1.常用命令1.1cd命令1.2查看目录文件1.3创建目录和删除目录1.4查看本机ip1.5清除屏幕1.6复制文件1.7移动文件1.8删除文件1.9ping1.10taskkill1.11netstat查看网络连接状态1.12find1.13tracert2.查看cmd下的命令3.辅助符号或命令3.1‘|’3.2重定向输出符号>>>3.3重定向输入符号<<<3.4终止一直在运行的命令ctr

    2022年6月13日
    62

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号