大数据开发和java开发有什么不同?

大数据开发和java开发有什么不同?最近发现有些同学并不太了解大数据开发工程师这个职位,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的Java或者PHP工程师在工作上有什么区别?什么不是大数据开发?仅使用数据库(关系型mysql,sqlserver,oracle等非关系型mongoredis等),尽管数据量达到千万级别,亿级别不是大数据开发。从业务系统的数据库中查询数据…

大家好,又见面了,我是你们的朋友全栈君。

最近发现有些同学并不太了解大数据开发工程师这个职位,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的Java或者PHP工程师在工作上有什么区别?

什么不是大数据开发?

仅使用数据库(关系型mysql,sqlserver,oracle等 非关系型 mongo redis等),尽管数据量达到千万级别,亿级别不是大数据开发。

从业务系统的数据库中查询数据然后产出报表不是大数据开发。

端上(页面,h5,手机native)埋点上报数据记录到数据库中不是大数据开发。

什么是大数据开发?

1. 大数据开发需要的技能

到智联上搜了一下大数据开发工程师这个职位,随便点了几个职位,截图如下:

 

大数据开发和java开发有什么不同?

 

 

大数据开发和java开发有什么不同?

 

 

所以说,现在互联网公司所指的大数据开发用到的工具是:hadoop,hive,hbase,spark,kafka等。

2. 大数据开发做的事情

精简到一个词语就是:统计

精简到两类指标就是:PV和UV

精简到一句话就是:统计各种指标的PV和UV

PC互联网时代,各门户网站(比如:新浪,网易,搜狐)关注的是各自网站今天被打开了几次(pv),今天有多少人(uv)访问了网站。更复杂一点的比如:想系统学习大数据的话,可以加入大数据技术学习交流扣扣君羊:522189307

页面上某个按钮或者某个连接有多少人点击了几次

某个页面上的热力图(点击地方越多,图上颜色越重)

移动互联网时代,手机应用被用户打开的次数和人数也是大家关注的重点,但是除此之外还多出了许多其他非常重要的数据,由于手机屏幕的限制,信息流成为了移动时代的主流。

各大门户网站非常关注自己的新闻客户端中:在信息流中曝光了多少篇文章,其中有多少篇文章被用户点击了。每篇文章阅读了长时间,因为用户点击的文章越多,使用客户端的时间越长,各公司的广告收入才越高,所以各公司想方设法推荐用户喜欢的内容。

3. 如何做这些事情

因为网站的浏览行为,手机客户端中文章的曝光或者点击这些数据非常大,基本以亿为单位起。所以传统的把统计信息放到数据库中的方式已经不能完成这项统计工作。(例如:wordpress博客中,用户每阅读一篇文章,mysql中就会更新这篇文章的阅读次数+1)

所以大数据是通过日志来统计这些指标。

比如:后台服务的日志(apache,tomcat,weblogic,nginx日志)

例如下图,我的个人网站apache服务的access日志。

 

大数据开发和java开发有什么不同?

 

 

日志的url字段中以 /年份(红色部分)开头行数就是这个网站文章页被访问的次数,以/category(蓝色部分)开头的行数就是这个网站分类目录被访问的次数。

当然我的这份日志中是统计不了用户数的,因为用户数的统计需要在每条日志上记录当前用户的唯一标识,然后再做个去重,去重后的数量就是用户数,但是这里没有上报用户的唯一标识。

那如何统计人数呢,一般互联网公司会自己在页面或者客户端上生成一个用户的唯一标识,然后主动上报到自己的日志服务器上。

大数据主要难点在于:

日志量太大(一般大点的互联网公司,一个业务线每天的日志都有几个t,再大些的每天几十t,几百t也不奇怪),需要掌握大数据相关技术例如前面提到的hadoop,hive等。

数据的及时性,从离线计算来说,一般每天零点,前一天的日志都接收完毕,开始计算前一天的数据,几点能计算完毕?要看各个公司各自的要求。

数据的准确性。(这是重中之重,大数据开发的工作就是统计,统计的数据如果不准….)如果是实时计算,需要掌握实时相关技术。例如:每5分钟网站的在线人数。

监控监控监控:监控任务是否失败,数据是否产出,产出的数据是否异常。

容灾容灾容灾:如果任务失败如何补救。比如实时任务,由于某种原因13:00到14:00的数据没有,如何把数据补回来。

大数据开发和一般业务开发的对比

在转做大数据开发之前,一直在用Java作业务系统: 例如hr系统(考勤,薪资等),收费系统。

谈谈我个人对业务系统开发和大数据开发的理解:

业务系统:

一句话:对数据库的各种增删改查操作。

重点难点在于:

对复杂业务的理解上(比如计算工资:基本工资,五险一金,全勤奖,高温补贴,报销,奖金,加班费…..等等都需要计算)。

线上服务的稳定,比如facebook,淘宝等网站高并发的压力下维持网站正常运行。

大数据开发

一句话:对字符串的各种算数。

重难点在于:

数据的及时性。例如实时数据中,想知道 12:00~12:10这10分钟的用户数,如果这个数据在晚上20点才计算完成,那就没什么意义了。再比如,大家应该都有体验过:在手机上刷新闻的时候,你点了某一篇文章,再继续刷新闻,后面很快会出来不少和前面点击的那篇文章类似的文章,这就是根据你的点击给你及时推荐你有更大可能点的东西。

数据的准确性。这个重要性不言而喻

数据的稳定性和容灾。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140693.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月27日 下午1:20
下一篇 2022年5月27日 下午1:20


相关推荐

  • list的五种去重方法

    list的五种去重方法面试中经常被问到的list如何去重,一般是口述,不需要代码体现,这个时候,思维一定要清晰,可以罗列出集中去重的方法,以展现你对list数据结构,以及相关方法的掌握,体现你的java基础学的是否牢固下面,我就将五种方法逐一展现新建一个list数组:Listlist=newArrayList();list.add(26);list.add(39);list.add(5)…

    2022年5月9日
    57
  • Oracle提权[通俗易懂]

    Oracle提权[通俗易懂]三种方式1.普通用户模式:拥有一个普通的oracle连接账号,不需要DBA权限,可提权至DBA,并以oracle实例运行的权限执行操作系统命令2.DBA用户模式:(自动化工具)sqlmap–is-dba测试是否是dba权限拥有DBA账号密码,可以省去自己手动创建存储过程的繁琐步骤,一键执行测试3.注入提升模式:(sqlmap)拥有一个oracle注入点,可以通过注入点执行系统命令,此种模式没有实现回显,需要自己验证。三种方式的提权工具…

    2026年4月13日
    3
  • 免费sun.misc.BASE64Decoder.jar下载「建议收藏」

    免费sun.misc.BASE64Decoder.jar下载「建议收藏」相信很多人在转base64时,需要BASE64Decoder包,然而网上都需要C币或者某豆,本着开源思想,资源共享原则,分享链接如下,大家可以自行下载:https://pan.baidu.com/s/127YeW2y_j1NNyrE3w70Ztg,此链接永久有效!!!如有疑问,请联系zhang_quan_888@163.com….

    2022年7月16日
    16
  • ac测评题库_队长小翼剧场版

    ac测评题库_队长小翼剧场版给定一个 N×M 的棋盘,有一些格子禁止放棋子。问棋盘上最多能放多少个不能互相攻击的骑士(国际象棋的“骑士”,类似于中国象棋的“马”,按照“日”字攻击,但没有中国象棋“别马腿”的规则)。输入格式第一行包含三个整数 N,M,T,其中 T 表示禁止放置的格子的数量。接下来 T 行每行包含两个整数 x 和 y,表示位于第 x 行第 y 列的格子禁止放置,行列数从 1 开始。输出格式输出一个整数表示结果。数据范围1≤N,M≤100输入样例:2 3 0输出样例:4#include<b

    2022年8月9日
    8
  • php中的id是什么意思,itemId是什么意思「建议收藏」

    php中的id是什么意思,itemId是什么意思「建议收藏」1.Http://www.worldchineseweekly.com/weekly_cn/article/show.php?itemid=4433笔笔柔情、有力,而且清爽,不仅显示学院的扎实功底,且毫不拘泥。2.TheitemidwillbepassedtotheAssocReportandthusresultinjustpresentingrulesw…

    2022年10月9日
    5
  • SpringMVC日期格式化

    SpringMVC日期格式化一、关于SpringMVC日期的格式化大概可分为四点1.@ResponseBody方式返回json的日期格式化2.ajax方式返回json的日期格式化3.数据保存时String转Date4.页面展示时,Date转固定格式的String二、配置实现日期格式化1.@ResponseBody方式返回json的日期格式化配置…

    2022年6月7日
    117

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号