数据挖掘应用实例分析

数据挖掘应用实例分析数据挖掘应用实例分析——个性化推荐系统​ 数据挖掘技术,一门基于计算机技术与大数据时代信息处理需求的技术产物,从世纪之交的火热发展以来,不知不觉间,早已应用到我们生活的方方面面:电子邮箱中的垃圾邮件分类、电影院的票房预测、网页上的广告推荐、语音识别、电网语义精确搜索等。还有人工智能、自然语言处理、数据修正等。我们认为,数据挖掘技术将成为互联网时代应用最广泛的技术之一,它有可能为人类社会带来一个新的时代。​ 但是由于笔者才疏学浅,今天我们暂不谈得那么高深,只分析的一个常见的应用实例——个性化推荐系统。

大家好,又见面了,我是你们的朋友全栈君。

数据挖掘应用实例分析

——个性化推荐系统

​ 数据挖掘技术,一门基于计算机技术与大数据时代信息处理需求的技术产物,从世纪之交的火热发展以来,不知不觉间,早已应用到我们生活的方方面面:电子邮箱中的垃圾邮件分类、电影院的票房预测、网页上的广告推荐、语音识别、电网语义精确搜索等。还有人工智能、自然语言处理、数据修正等。我们认为,数据挖掘技术将成为互联网时代应用最广泛的技术之一,它有可能为人类社会带来一个新的时代。

​ 但是由于笔者才疏学浅,今天我们暂不谈得那么高深,只分析的一个常见的应用实例——个性化推荐系统。

​ 个性化推荐最初的诞生,是由于在逐渐信息过载的时代中,适当的筛选可以让用户高效地获得自己所需要的信息。后来才逐步应用于商业,尤其是成为了电商行业的有效销售手段;还有一些文化、社交性的站点(比如豆瓣、知乎、网易云等)。

​ 推荐系统是自动联系用户和物品的一种工具,它通过研究用户的兴趣爱好,来进行个性化推荐。它与搜索引擎的不同在于,它不需要用户提供输入目标,而是基于历史记录自动推荐,是一种主动的机制。它能够通过分析用户的历史行为来对用户的兴趣进行建模,从而主动给用户推荐可满足他们兴趣和需求的信息。每个用户所得到的推荐信息都是与自己的行为特征和兴趣有关的,而不是笼统的大众化信息,因此称之为“个性化”。

​ 关于推荐引擎的工作原理,首先它需要得到一些基本信息,主要包括:一、要推荐的内容的元数据,如关键字。二、用户的基本信息,如性别、年龄、职业。三、用户的偏好,偏好信息又可以分为显式用户反馈和隐式用户反馈。显式用户反馈是用户在网站上自然浏览或者使用网站以外,显式地提供的反馈信息,如用户对物品的评分,或者对物品的评论等。

​ 隐式用户反馈是用户在使用网站时产生的数据,隐式地反映了用户对物品的喜好,如用户购买了某物品,用户查看了某物品的信息,用户在某页面停留的时间等。推荐引擎通过对这些信息的统计分析关联,再给用户个性化地推荐相应物品或信息。

​ 对于当前大部分的推荐机制可以进行以下分类:一、基于人口统计学的推荐,即根据用户个人的基本数据信息来发现用户的相关程度。二、基于内容的推荐,即根据不同内容的元数据,进行内容相关性的分析。三、根据协同过滤的推荐,通过对用户偏好信息的过滤,发现不同内容的相关性或者不同用户的相关性。

​ 这些数据挖掘有关技术已经在很多领域取得了成就,譬如推荐系统应用的鼻祖Amazon,就是通过消费偏好对比以及一些混合手法,来对用户进行精准的页面推荐,现在的淘宝、京东、天猫等电商平台显然也采用了这种方式进行个性化推荐。个性化的流量分配可以最大化流量的使用效率,这使得它们的获客成本居高不下。

​ 而电商领域的个性化推荐也面临以下挑战:由于推荐是基于已有信息对用户意图与心理进行的猜测,及时识别用户每个行为背后的真实意图,甚至每个页面、每个标题对用户心理的影响就十分重要,这些关键的影响因素可能是一张购物券、一张明星街拍、一个偶遇的促销活动,尤其是激情消费易发的当下。这里面涉及到较为复杂的用户购物状态的推理和判定,如果不借助人工输入,比如通过产品设计提供用户筛选接口,让用户人工输入限制项,典型的比如过滤器,负反馈,则对目前的机器算法是一个非常大的挑战。

​ 还有一个问题就是用户体验问题。这些平台,乃至个性化推荐的算法,本质上都是为了用户服务的。可以看到,常常被抱怨的体验问题包括买了还推,推荐商品品类单一,没有让人眼前一亮的商品能满足一下发现的惊喜等等不一而足。往往这些体验问题的解决都需要人工规范的干预,但凡有规则的介入比如加入购买过滤,类目打散展示等策略,都会造成交易类指标的下降,平衡两者之间的关系对推荐系统是一个现实的挑战。

​ 对于个性化推荐在其他领域的应用也都面临着类似的问题。还有例如基于人口统计学的推荐机制的基于用户的基本信息对用户进行分类的方法过于粗糙,尤其是对品味要求较高的领域,如图书、电影和音乐等领域,无法得到很好的推荐效果。基于内容的推荐需要对物品进行分析和建模,推荐的质量依赖于物品模型的完整和全面程度;对于物品相似度的分析仅仅依赖于物品本身的特征,而没有考虑人对物品的态度;因为是基于用户以往的历史做出推荐,所以对于新用户有“冷启动”的问题等。还有协同推荐的效果过于依赖于用户历史偏好数据的多少和准确性;对于一些特殊品味的用户不能给予很好的推荐;由于以历史数据为基础,抓取和建模用户的偏好后,很难修改或者根据用户的使用进行演变,从而导致这个方法不够灵活。

​ 当然现在大多流行的都是混合型推荐,可能把一种推荐机制的输出当做输入送入另一个机制中,或者把不同机制得到的推荐结果都推荐给用户,这些也是能够有效提高推荐效果的。

​ 总而言之,个性化推荐是日常生活中最能体现数据挖掘的应用实例之一,人们对于它的研究已经很多年了,而且还将基于社会文化的不断变迁继续发展下去。

参考文献:
曹媛媛(京东):《大数据杂谈》
程序员生活网:《大数据教程学习》
百度百科、知乎

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/147939.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • [USACO12JAN]视频游戏的连击Video Game Combos「建议收藏」

    很早之前就做过啦补一下题解F(i,j)前i个的字符为j的匹配注意end要累加#include<iostream>#include<cstdio>#include<cstring>#include<cmath>#include<algorithm>#include<queue>usingnam…

    2022年4月10日
    45
  • Mapper.xml中的useGeneratedKeys[通俗易懂]

    Mapper.xml中的useGeneratedKeys[通俗易懂]mapper.xml中添加属性“useGeneratedKeys”和“keyProperty”,其中keyProperty是Java对象的属性名.例:<insertid="insertSelective"parameterType="com.xxx.StudentMistakeKpoints"useGeneratedKeys="true"keyProperty="id">…

    2022年6月24日
    40
  • 电子信息系统机房设计规范 GB50174-2017

    电子信息系统机房设计规范 GB50174-2017一、物理安全1.1物理安全主要包括:(1)机房环境安全(2)通信线路安全(3)设备安全(4)电源安全1.1.1机房的安全等级分为三个基本类别:A类:对计算机机房的安全有严格的要求,有完

    2022年7月2日
    32
  • 周末web前端练习

    在CSS样式定义中,以下哪种RGB颜色值是Web安全色?A]#111111B]#222222C]#333333D]#444444答案:http://hovertree.com/tiku

    2021年12月22日
    48
  • python与pycharm区别_jython和python

    python与pycharm区别_jython和pythonipython和pycharm和python区别pycharm是一种pythonIDE(IntegratedDevelopmentEnvironment,集成开发环是用于提供程序开发环境的应用程序,集成了代码编写功能、分析功能、编译功能、调试功能等一体化的开发软件服务套,所有具备这一特性的软件或者软件套都可以叫集成开发环境。如微软的VisualStudio系列,Borland的C++Builder、Delphi系列等。该程序可以独立运行,也可以和其它程序并用。IDE多被用于开发HTML应用

    2022年8月28日
    3
  • 基于单片机的八路抢答器设计论文_抢答器的程序流程图

    基于单片机的八路抢答器设计论文_抢答器的程序流程图文末下载完整资料1.1八路扫描式抢答器的概述  本文介绍的八路数显抢答器具有电路简单、成本较低、操作方便、灵敏可靠等优点,经使用效果良好,具有较高的推广价值。无线遥控抢答器,它由8个发射器和1个接收器组成,可用于8组或8组以下的智力竞赛中。比赛前,将参赛组从0至7编号,每组发给对应的一个发射器。将接收器放于各组中央或前方。主持人按一下启动键后,抢答开始。此后,哪一组最先按下发射器上的抢答键,接收器就立即显示该组的组号并锁定,同时发出3次清脆的“叮咚”声。以后,按下任何一路抢答键均不起反映。只有主

    2022年10月20日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号