Cloudra公司CCP:DS——认证数据专家

Cloudra公司CCP:DS——认证数据专家

大家好,又见面了,我是全栈君。

原文:http://vision.cloudera.com/24195/。


译文:

每天我都能看到大数据怎样改变我们生活的文章。数据科学家们正在生物医药领域找寻新的方法治愈癌症。帮助银行与欺诈做斗争,警察打击与毒品有关的犯罪,以及明星球员间的斗争。

看上去我须要的是一个象Hadoop的分析平台和一大堆数据,然后可操作的见解就会扑过来,对吗?嗯,不全然是。尽管Hadoop把困难的事情变easy了、把不可能的事情变得可能,可是我们仍然得弄清楚我们要寻找什么,一旦我们知道了答案还必须理解那意味着什么。

体积、速度和大数据的多样性让聚焦于某一点变得困难,而我们的洞察力由于无法忽略细节而变得更困难。

寻找有意义的模式并把它们转换成可操作的见解,须要大量的计算机、先进的软件。专家们使用这些工具告诉我们这些信息的意义。

这就是数据的科学。

 

数据科学的定义

与其它科学家一样,数据科学家先提出如果,然后做实验,并依据结果断定如果是否成立。

但在大数据领域,过程并没有这么简单。

首先。要在一大堆数据集中积累足够支持如果的数据。

第二,数据科学很多其它的是分析而不是实验,这意味着数据在第一步已经整理完成。控制实验是不可能的。

相反,数据科学家必须通过细致的建模。以逆向project的实验方法。

第三,数据科学家证明一个假说并从数据中发现实用的模式后,真正的工作才開始。

挑战在于把这样的模式变成一种数据产品。能够用于分析新数据或运行正在进行的预測分析。

一个有抱负的数据专家必须具备极高要求并具有多种技能:统计。编程。机器学习和多种技术(如Hadoop。R,可视化工具)。

此外。最好的数据专家不尽同样。他们通过各自领域内的(如生命科学,行为学,气象学)应用软件技巧、讲故事、好奇心、机制、持久性和心理素养等,为他们所服务的公司创造价值。数据专家的要求如此之高,这就是为什么麦肯锡全球研究院、哈佛商业评论和Gartner集团断定在未来几年的同类项目人才缺口达几十万的原因。

造成数据专家供应失衡的更复杂的原因在于无法对通过专业验证对数据专家的能力进行评估。少数大学开设了高级分析和数据科学专业,它要求数据人员花费大量的时间和资源以获得完整的学术背景。但这不足以验证他们具备数据分析领域的能力和经验。

如今尚无国际性的数据科学研究所。负责招聘的经理们大多数都没有数据科学经验。而一份简历或面试根本证明不了什么。

这个人才缺口和人才不能被验证的对立问题仅仅会变得更加严重。由于小企业也開始积累大数据并寻找该领域的人才。

解决方式的一部分是由实际的数据专家建立了一个正式的数据科学课程。

Cloudera提供了一个极好的为期三天的数据科学课程,教授基础知识。并训练学员在数据科学明星Jeff Hammerbacher 和 Josh Wills的视角下建立自己的推荐系统。

该解决方式的还有一个组成部分是公共数据科学比赛,通过竞赛让參与者积累经验并在现实的环境中证明自己的能力。

塑造行业的挑战

对一份起薪30万美元/年的工作而言,接受多少教育和实践才够呢?一个正式的行业认证将是最有价值的。它能给企业一个已知的尺度来衡量从业人员。

在Cloudera,我们借鉴我们的行业领导地位和现实世界的经验,通过早期的语料库来填补这一空白。我们最近推出了一个由两部分组成的Cloudera认证专家:数据专家(Cloudera Certified Professional: Data Scientist CCP:DS)的程序。它由数据科学要点考试和每年2次的数据科学挑战组成,从而帮助候选人证明他们的能力以及帮助雇主识别精英、发现高水平的数据专家。顺利通过认证的參与者将会是世界上最称职(和很性感)的数据专家

除了认证,CCP:DS还包括了一个60道数据科学题库(帮助參与者自我评估)和一个免费的数据科学挑战套装。

该套装提供一个实时数据集、教程和具体的解释手冊,解释手冊的作用是为了得到真实世界数据问题的正确结果。须要集中在分类、集群和网络分析的协调过滤。

眼下的数学挑战今天開始(注:2014年3月31日),直到6月30日。它由Cloudra的数据科学总监SeanOwen设计,挑战要求应试者通过一个巨大的匿名医疗数据库找出医疗保险索赔可能产生的错误和异常。成功的參与者应该建立一个科学数据模型回答一系列问题,包含:

l 哪些医疗程序的成本有最高的相对方差?

l 平均索赔金额最高的哪三个供应商的程序数量最多?

l 从数量和程序类型来看,哪三个供应商和地区是与别人最不一样的?

l 审查1万名可能出现错误或异常的病人,描写叙述这些病人的特征。       


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/115655.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • static函数局部变量的使用「建议收藏」

    static函数局部变量的使用「建议收藏」#include<stdio.h>#include<stdint.h>#include<string.h>#include<math.h>#include<stdlib.h>voidstaticFun(void){  static uint8_t data=0;  data++;  data…

    2022年7月16日
    15
  • latex 希腊符号_表示角的希腊字母

    latex 希腊符号_表示角的希腊字母在LaTeX代码加载包的地方添加##\usepackage{amsmath}

    2022年10月10日
    2
  • deep learning with pytorch中文版_pytorch distributed

    deep learning with pytorch中文版_pytorch distributed憨批的语义分割重制版9——Pytorch搭建自己的DeeplabV3+语义分割平台注意事项学习前言什么是DeeplabV3+模型代码下载DeeplabV3+实现思路一、预测部分1、主干网络介绍2、加强特征提取结构3、利用特征获得预测结果二、训练部分1、训练文件详解2、LOSS解析训练自己的DeeplabV3+模型一、数据集的准备二、数据集的处理三、开始网络训练四、训练结果预测注意事项这是重新构建了的DeeplabV3+语义分割网络,主要是文件框架上的构建,还有代码的实现,和之前的语义分割网络相比,更加

    2022年8月21日
    8
  • MQTT服务器搭建与测试图文并茂[通俗易懂]

    MQTT服务器搭建与测试图文并茂[通俗易懂]文章目录一、MQTT概念二、阿里云MQTT服务器搭建1阿里云平台注册及认证2添加平台2创建产品与设备获取MQTT连接相关信息三、MQTT.fx测试1MQTT.fx下载及安装2配置登录信息3从MQTT.fx上报数据到阿里云服务器4阿里云下发数据到MQTT.fx将属性set填入一、MQTT概念MQTT(MessageQueuingTelemetryTransport,消息队列遥测传输协议),是一种基于发布/订阅(publish/subscribe)模式的”轻量级”通讯协议,该

    2022年5月2日
    60
  • CSS3 opacity属性

    CSS3 opacity属性CSS3opacity属性记录设置一个div元素的透明度级别实现原理:opacity属性在实现的原理上极度类似于PS中的蒙版概念样式:div{opacity:0.5;}取值范围:0~1注意:IE8和早期版本支持另一种过滤器属性。像:filter:Alpha(opacity=50)属性说明默认值:1继承性:no(不继承)版本:CSS3属性:object.style.opacity问题1.如果父元素设置opacity属性,那么这个的所有子元素都

    2022年5月26日
    37
  • 概率矩阵分解模型 PMF[通俗易懂]

    概率矩阵分解模型 PMF[通俗易懂]本文是论文《一种结合推荐对象间关联关系的社会化推荐算法》的笔记(上)。因为对其中的概率矩阵分解(ProbabilisticMatrixFactorization,PMF)不够了解,因而我先去脑补了PMF在推荐系统中的应用,然后再对论文进行总结。主要内容包括svd的两种形式和PMF的介绍。

    2022年6月18日
    61

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号