大数据开发步骤和流程「建议收藏」

大数据项目开发步骤:第一步:需求:数据的输入和数据的产出;第二步:数据量、处理效率、可靠性、可维护性、简洁性;第三步:数据建模;第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;第五步:再次思考大数据系统和企业IT系统的交互;第六步:最终确定选择、规范等;第七步:基于数据建模写基础服务代码;第八步:正式编写第一个模块;第九步:实现其它…

大家好,又见面了,我是你们的朋友全栈君。

大数据项目开发步骤:

第一步:需求:数据的输入和数据的产出;

第二步:数据量、处理效率、可靠性、可维护性、简洁性;

第三步:数据建模;

第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构;

第五步:再次思考大数据系统和企业IT系统的交互;

第六步:最终确定选择、规范等;

第七步:基于数据建模写基础服务代码;

第八步:正式编写第一个模块;

第九步:实现其它的模块,并完成测试和调试等;

第十步:测试和验收;

大数据流程:

从流程角度上看,整个大数据处理可分成4个主要步骤。

         第一步是数据的搜集与存储;

         第二步是通过数据分析技术对数据进行探索性研究,包括无关数据的剔除,即数据清洗,与寻找数据的模式探索数据的价值所在;

         第三步为在基本数据分析的基础上,选择和开发数据分析算法,对数据进行建模。从数据中提取有价值的信息,这其实是真正的阿里云大数据的学习过程。这当中会涉及很多算法和技术,比如机器学习算法等;

         最后一步是对模型的部署和应用,即把研究出来的模型应用到生产环境之中。

                   1) 数据采集:定制开发采集程序,或使用开源框架flume

                  2) 数据预处理:定制开发mapreduce程序运行于hadoop集群

                  3) 数据仓库技术:基于hadoop之上的Hive

                  4) 数据导出:基于hadoop的sqoop数据导入导出工具

                  5) 数据可视化:定制开发web程序或使用kettle等产品

 

大数据开发步骤和流程「建议收藏」

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/126929.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux SIGABRT信号

    自己写的程序启动时偶尔会被SIGABRT信号杀死。故查看下SIGABRT的用法。SIGABRT是中止一个程序,它可以被捕捉,但不能被阻塞。处理函数返回后,所有打开的文件描述符将会被关闭,流也会被flush。程序会结束,有可能的话还会coredump。当程序调用abort(3)时,该进程会向自己发送SIGABRT信号。所以,SIGABRT一般用于信号中一些关键的处理,assert失败时也

    2022年4月8日
    310
  • 计算机二级excel设置宏,Excel2013中为宏指定快捷键的方法

    计算机二级excel设置宏,Excel2013中为宏指定快捷键的方法计算机二级知识知多少?小编又来普及了,希望大家能够好好学习计算机二级,争取一次过关。其实,在Office2013/”target=”_blank”>Office2013应用程序中,使用快捷键是一种快速执行命令的方法,如,在选择对象后按“Ctrl+C”键可以快速执行对象的复制操作,按“Ctrl+V”键可以快速执行对象的粘贴操作。实际上,对于录制的宏,同样可以通过指定快捷键来方便其执行,下面…

    2022年5月17日
    76
  • 小米如何安装magisk和太极阳(纯小白篇)

    小米如何安装magisk和太极阳(纯小白篇)首先说明,我本人也是一个小白,很多专业术语和知识都不是特别了解。所以如果教程里有些许错误请见谅。我自己的手机是MI8,MIUI10.x.x.,在我安装msgisk的时候看了很多经验贴才下手的最后一次成功,但是网上并没有一篇完全适合小白的帖子,所以我这个小白就站出来了。好了,下面是正文,有关刷magisk的所有软件,下面都会在用到的地方给出。建议动手之前,先通看一遍本文,然后再按照本文操作。然后你会…

    2022年6月4日
    150
  • IDEA这些既好用又好玩的三十多个宝贝插件你还不知道吗?「建议收藏」

    小编整理的一些好用的有趣的插件如果有什么问题,欢迎大家评论,群文件也有这些IDEA插件QQ交流群:99979568IDEA下载插件教程如果无法在线下载插件,文末有我下载好的安装包,以及安装包安装的教程强烈推荐的插件PresentationAssistant快捷键展示Codota代码智能提示AlibabaJavaCodeGuidelines—阿里巴巴Java代码规范Translation-必备的翻译插件SequenceDiagra.

    2022年4月8日
    47
  • 我们可以使用命令kill来结束Linux系统下运行的进程(kill强制杀死进程)

    杀死进程最安全的方法是单纯使用kill命令,不加修饰符,不带标志。首先使用ps-ef命令确定要杀死进程的PID,然后输入以下命令:#kill–pid注释:标准的kill命令通常都能达到目的。终止有问题的进程,并把进程的资源释放给系统。然而,如果进程启动了子进程,只杀死父进程,子进程仍在运行,因此仍消耗资源。为了防止这些所谓的“僵尸进程”,应确保在杀死父进程之前,先杀死其所有的子进程。确定要杀死进程的PID或PPID#ps-ef|grephttpd以优雅的方式结束进

    2022年4月16日
    80
  • Myeclipse7.5 下载 安装 注冊 注冊码 100%成功

    Myeclipse7.5 下载 安装 注冊 注冊码 100%成功

    2021年12月1日
    45

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号