大数据降噪方法论

大数据降噪方法论部分机构掌握了一定量的客户信息数据,就以为掌握了大数据,忽视对数据分析工具和方法论的研究。在金融业务中,这有可能影响其对风险的识别和防控,并造成风险的积聚和扩散。最近,《互联网金融风险专项整治工作实施方案》全文网上曝光,包括第三方支付、P2P网贷、股权众筹、互联网保险、投资理财,以及互联网跨界资管,甚至互联网广告,都将面临一轮集中整治。分析整治的原因…

大家好,又见面了,我是你们的朋友全栈君。

部分机构掌握了一定量的客户信息数据,就以为掌握了大数据,忽视对数据分析工具和方法论的研究。在金融业务中,这有可能影响其对风险的识别和防控,并造成风险的积聚和扩散。

最近,《互联网金融风险专项整治工作实施方案》全文网上曝光,包括第三方支付、P2P网贷、股权众筹、互联网保险、投资理财,以及互联网跨界资管,甚至互联网广告,都将面临一轮集中整治。

分析整治的原因,会发现在法规不够健全、监管不够有力,行业自律较弱,投资者教育欠缺外,还有一个重要的症结——企业和机构对大数据技术的理解和认识存在一定偏差。

大数据技术的发展和进步给人们提供了新的工具,即从更宽视野、更多维度、更全方位来认知问题和分析问题的方法。但部分机构掌握了一定量的客户信息数据,就以为掌握了大数据,忽视对数据分析工具和方法论的研究。在金融业务中,这有可能影响其对风险的识别和防控,并造成风险的积聚和扩散。

因此,在互联网时代,企业和机构对大数据的认识,需要结合正确的方法论、认识论,处理好碎片化的信息和完整性的数据、以及结构性的数据和非结构性的数据的关系。

大小不能以量区分

有人认为,有了大数据,就可以轻视对传统小数据的开发和利用。但大数据有大数据的长处,大数据也有大数据的不足,两者无法相互替代。

尽管迄今为止,并没有对大数据统一而权威的定义。但大数据的重要特征,在于它应该既包括结构性的数据,以及在生成的时候表现为非结构性数据的信息。而小数据,主要是指传统的二维结构性数据。

从技术角度上看,传统的小数据有经典的数理统计分析模型和成型的挖掘技术。而大数据的管理理论、分析方法仍在快速发展和跟进,特别是要采集、挖掘和使用非结构性的数据,仍没有完全成型或者定型。此外,还有一部分非结构性的数据,在最后使用的时候需要通过技术手段把它转换成结构化数据才能实现。

从处理角度上看,大数据会随着数据量的急剧增加,其中的数据噪音会有快速增长。有时,数据噪音的增长幅度会快于数据量的增长幅度。因此,在大数据领域,对其挖掘、筛选、清洗的成本,将会明显高于小数据。

从相互关系的角度看,大数据通常比较容易反映的是事物的相关关系,而小数据往往容易得出的是事物的因果关系。在很多情况下,相关关系是不能简单地代替因果关系的。小数据它可以抽取世间的一些事物最核心的内容,最基本的内容。因此与大数据相比,小数据的单位信息容量更大,所以大数据的颗粒度和小数据的颗粒度不同。

以银行的数据为例,我们经常定义其为小数据,因为它都是以会计为基础,以计算为方式表现出来,反映了交易活动最核心的内容和最终的结果。比如,客户存款多少、贷款多少、买了黄金多少等等。但是,客户之所以进行这个交易、他的决策过程、行为路径,就无法通过传统的小数据,也就是银行的账本反映出来。

而收集这类信息,却正是大数据的优势。作为一家银行,如果能够通过收集、掌握大数据,了解客户的行为路径,了解客户的决策过程,无疑对提升服务水准、防控金融风险价值很大。所以,只有把小数据方法的完备性、准确性,同大数据分析的多维性、及时性融合起来,才能对管理带来一种质的飞跃。

风险不应自我回避

《巴塞尔协议III》中,要求银行业在观察客户的违约概率和违约损失率时,数据积累的长度必须长于5年或7年,甚至更长时间。此外,对于数据清洗还要有严格的流程。巴塞尔委员会之所以做这项规定,就是为了避免因为数据的缺陷,而导致在风险识别和计量上出现失误。

但在新晋互联网企业对投资人和客户的宣传中,往往会看到一句话:运用大数据技术。且不论这种对客户群行为数据的保留和采集是否经济、合理和必要,单从数据是否完整上看,就已经把自己得到的数据误以为是全量数据;把自己所拥有的一个样本,认为是具有充分代表性的随机性的样本。

盘点部分“出事”的互联网金融公司,除了一些人为的原因,大多数都存在这种对于数据的片面理解,过分高估了自己的数据处理能力——对自己拥有的这些数据,究竟能不能用,应该怎么样用于风险识别和管控,他们并没有经过反复验证。

但凡了解建模、数据分析和数据挖掘的人,都明白模型越是复杂,纳入的变量越多,就越容易出现这样的问题。这个也证实我们在金融风险的管控当中,必须注意到的模型风险。在看待信用风险、市场风险时,都要借用大量的模型,而模型的质量怎么样,模型是否可靠,实际上最终决定了对信用风险、市场风险、操作风险的识别和计量是否准确。

这就像金融企业面对的客户,客户的个性化、差异化很大,要对他们各自的违约风险和违约损失做出判断,仅靠一些模型的评估可能还不够,有时还需要借助必要的专家判断。

比如审批贷款时,会采用高分段自动进入,低分段自动拒绝、中段分段机器识别以后加以必要的人工干预的方法。这就是为什么有的时候大家经常抱怨银行效率太低,放一个贷款需要审来审去。首先,高分段经过严格的评估以后,高分段大体占到个人按揭贷款的20%左右,进行自动审核的。而企业贷款,法人贷款,是要经过模型识别通过以后,才能进行第二轮判断。

大数据时代可能更迷茫

大数据的优势,在于其可以直接把音频、视频,包括文字非结构化的数据都能数据化,这样的话分析使用起来就会很便捷。但在记录当中,可能搀杂着噪音、埋伏有陷阱。所以,对于数据信息的不当理解,对于数据分析方法工具的盲目应用,让我们面对茫茫数据时,有可能变得比以往缺乏数据信息的年代更加迷惑。

因此作为数据的使用者,我们应该明确的是,人不能成为机器的奴隶,因为机器和模型都是为我所用的,本身就是人设计的。同时,并非世间万物都是可以数据化的,比如人的情感。

尽管有人说,未来的一切都可以数据化,比如现在,有人已经通过云计算和大数据分析写文章。但我认为,一些数据化较强的分析文章可以写,因为这类文章本身就公式化的。但是,类似《红楼梦》这种充满情感的文字就不太可能,因为通过自动生成的诗词,很难达到较高的艺术水准。

因此,作为互联网时代的现代人,只有学会了怎么样客观地看待数据,怎么审慎地选择方法,才能从这个复杂的社会中提炼出比较有价值的结论。也只有这样,才是真正具备了大数据思维和互联网思维。
本文转自d1net(转载)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/136064.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Enterprise Library概述

    Enterprise Library概述Webcast网络讲座:企业库系统课程企业库(EnterpriseLibrary)是微软的模式与实践(Patterns&Practices)的下一代应用程序块(ApplicationBlocks)。该企业库的设计思想是为了协助开发商解决企业级应用开发过程中所面临的一系列共性的问题,如安全(Security)、日志(Logging)、数据访问(DataA…

    2022年10月20日
    0
  • hibernate.hbm2ddl.auto=update不能自动生成表结构[通俗易懂]

    在写上篇文章《spring整合springmvc和hibernate》的时候,曾遇到一个问题说是表t_user不存在,也就是说hibernate并没有自动生成表结构,hibernate.hbm2dd

    2022年2月16日
    42
  • java jwt 单点登录_jwt技术实现系统间的单点登录「建议收藏」

    java jwt 单点登录_jwt技术实现系统间的单点登录「建议收藏」阅读文本大概需要3分钟。单点登录(singlesignon),简称sso。它的定义是多个应用系统间,只需要登录一次就可以访问所有相互信任的应用系统。下面介绍用jwt技术如何来实现单点登录。一、JWT定义及其组成JWT(JSONWEBTOKEN)是一个非常轻巧的规范,这个规范允许我们使用jwt在客户端和服务器之间传递安全可靠的信息。JWT由3个部分组成,分别是头部、载荷、签名。头部部分{“a…

    2022年5月11日
    40
  • JVM成神之路-类加载机制-双亲委派,破坏双亲委派

    概述概念虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接时候用的Java类型。类的生命周期类从被加载到虚拟机内存中开始,到卸载出内存为止,它的整个生命周期包括:加载、验证、准备、解析、初始化、使用、卸载。其中验证、准备、解析统称为连接上图中,加载、验证、准备、初始化和卸载这5个阶段的顺序是确定的,类的加载过程必须严…

    2022年4月16日
    33
  • AD15中PCB设置NET CLASS规则

    AD15中PCB设置NET CLASS规则1,执行菜单命令设计-类或者快捷命令DC计入如下界面2,右键新建一个类类)X*O-K,M9}0C6v3,吧电源和GND网络都加载到右边,PWR类创建完毕 4,这时候在规则里面就可对这个类进行调用和约束…

    2022年7月16日
    13
  • JavaScript之正则表达式的使用方法详细介绍[通俗易懂]

    JavaScript之正则表达式的使用方法详细介绍[通俗易懂]首先必须说明的是,这类文章(js正则表达式)在c站或者整个it类论坛是很多人写过的,而我认为我这篇的不同之处在于更加“小白”化,这也与我一贯的风格有关吧。关于JavaScript正则表达式,其他的文章大多一上来就太过激进,不利于初学者学习(我当粗就是这么被劝退的),这也是我为什么要坚持写这篇文章,希望小白在看了这篇文章后,不管能不能完全掌握JavaScript正则表达式,但至少对JavaScript正则表达式能有一个比较深刻的印象吧。

    2022年10月24日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号