数据挖掘应用实例分析

数据挖掘应用实例分析数据挖掘应用实例分析——个性化推荐系统​ 数据挖掘技术,一门基于计算机技术与大数据时代信息处理需求的技术产物,从世纪之交的火热发展以来,不知不觉间,早已应用到我们生活的方方面面:电子邮箱中的垃圾邮件分类、电影院的票房预测、网页上的广告推荐、语音识别、电网语义精确搜索等。还有人工智能、自然语言处理、数据修正等。我们认为,数据挖掘技术将成为互联网时代应用最广泛的技术之一,它有可能为人类社会带来一个新的时代。​ 但是由于笔者才疏学浅,今天我们暂不谈得那么高深,只分析的一个常见的应用实例——个性化推荐系统。

大家好,又见面了,我是你们的朋友全栈君。

数据挖掘应用实例分析

——个性化推荐系统

​ 数据挖掘技术,一门基于计算机技术与大数据时代信息处理需求的技术产物,从世纪之交的火热发展以来,不知不觉间,早已应用到我们生活的方方面面:电子邮箱中的垃圾邮件分类、电影院的票房预测、网页上的广告推荐、语音识别、电网语义精确搜索等。还有人工智能、自然语言处理、数据修正等。我们认为,数据挖掘技术将成为互联网时代应用最广泛的技术之一,它有可能为人类社会带来一个新的时代。

​ 但是由于笔者才疏学浅,今天我们暂不谈得那么高深,只分析的一个常见的应用实例——个性化推荐系统。

​ 个性化推荐最初的诞生,是由于在逐渐信息过载的时代中,适当的筛选可以让用户高效地获得自己所需要的信息。后来才逐步应用于商业,尤其是成为了电商行业的有效销售手段;还有一些文化、社交性的站点(比如豆瓣、知乎、网易云等)。

​ 推荐系统是自动联系用户和物品的一种工具,它通过研究用户的兴趣爱好,来进行个性化推荐。它与搜索引擎的不同在于,它不需要用户提供输入目标,而是基于历史记录自动推荐,是一种主动的机制。它能够通过分析用户的历史行为来对用户的兴趣进行建模,从而主动给用户推荐可满足他们兴趣和需求的信息。每个用户所得到的推荐信息都是与自己的行为特征和兴趣有关的,而不是笼统的大众化信息,因此称之为“个性化”。

​ 关于推荐引擎的工作原理,首先它需要得到一些基本信息,主要包括:一、要推荐的内容的元数据,如关键字。二、用户的基本信息,如性别、年龄、职业。三、用户的偏好,偏好信息又可以分为显式用户反馈和隐式用户反馈。显式用户反馈是用户在网站上自然浏览或者使用网站以外,显式地提供的反馈信息,如用户对物品的评分,或者对物品的评论等。

​ 隐式用户反馈是用户在使用网站时产生的数据,隐式地反映了用户对物品的喜好,如用户购买了某物品,用户查看了某物品的信息,用户在某页面停留的时间等。推荐引擎通过对这些信息的统计分析关联,再给用户个性化地推荐相应物品或信息。

​ 对于当前大部分的推荐机制可以进行以下分类:一、基于人口统计学的推荐,即根据用户个人的基本数据信息来发现用户的相关程度。二、基于内容的推荐,即根据不同内容的元数据,进行内容相关性的分析。三、根据协同过滤的推荐,通过对用户偏好信息的过滤,发现不同内容的相关性或者不同用户的相关性。

​ 这些数据挖掘有关技术已经在很多领域取得了成就,譬如推荐系统应用的鼻祖Amazon,就是通过消费偏好对比以及一些混合手法,来对用户进行精准的页面推荐,现在的淘宝、京东、天猫等电商平台显然也采用了这种方式进行个性化推荐。个性化的流量分配可以最大化流量的使用效率,这使得它们的获客成本居高不下。

​ 而电商领域的个性化推荐也面临以下挑战:由于推荐是基于已有信息对用户意图与心理进行的猜测,及时识别用户每个行为背后的真实意图,甚至每个页面、每个标题对用户心理的影响就十分重要,这些关键的影响因素可能是一张购物券、一张明星街拍、一个偶遇的促销活动,尤其是激情消费易发的当下。这里面涉及到较为复杂的用户购物状态的推理和判定,如果不借助人工输入,比如通过产品设计提供用户筛选接口,让用户人工输入限制项,典型的比如过滤器,负反馈,则对目前的机器算法是一个非常大的挑战。

​ 还有一个问题就是用户体验问题。这些平台,乃至个性化推荐的算法,本质上都是为了用户服务的。可以看到,常常被抱怨的体验问题包括买了还推,推荐商品品类单一,没有让人眼前一亮的商品能满足一下发现的惊喜等等不一而足。往往这些体验问题的解决都需要人工规范的干预,但凡有规则的介入比如加入购买过滤,类目打散展示等策略,都会造成交易类指标的下降,平衡两者之间的关系对推荐系统是一个现实的挑战。

​ 对于个性化推荐在其他领域的应用也都面临着类似的问题。还有例如基于人口统计学的推荐机制的基于用户的基本信息对用户进行分类的方法过于粗糙,尤其是对品味要求较高的领域,如图书、电影和音乐等领域,无法得到很好的推荐效果。基于内容的推荐需要对物品进行分析和建模,推荐的质量依赖于物品模型的完整和全面程度;对于物品相似度的分析仅仅依赖于物品本身的特征,而没有考虑人对物品的态度;因为是基于用户以往的历史做出推荐,所以对于新用户有“冷启动”的问题等。还有协同推荐的效果过于依赖于用户历史偏好数据的多少和准确性;对于一些特殊品味的用户不能给予很好的推荐;由于以历史数据为基础,抓取和建模用户的偏好后,很难修改或者根据用户的使用进行演变,从而导致这个方法不够灵活。

​ 当然现在大多流行的都是混合型推荐,可能把一种推荐机制的输出当做输入送入另一个机制中,或者把不同机制得到的推荐结果都推荐给用户,这些也是能够有效提高推荐效果的。

​ 总而言之,个性化推荐是日常生活中最能体现数据挖掘的应用实例之一,人们对于它的研究已经很多年了,而且还将基于社会文化的不断变迁继续发展下去。

参考文献:
曹媛媛(京东):《大数据杂谈》
程序员生活网:《大数据教程学习》
百度百科、知乎

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/147939.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 不同浏览器中手动启用Flash Player「建议收藏」

    FlashPlayer用户在浏览网页有时会提示:“AdobeFlashPlayer已被屏蔽”等类似界面,当出现该情况时,那么我们如何手动启用FlashPlayer?我们将这个问题分为以下四种类型进行逐一介绍:谷歌Chrome浏览器1点击chrome浏览器右上角图标2在跳出的对话框中单击设置3在页面底部单击高级4在展开的页面中单击内容设置5单击Flash6打开Flash下方的先询问(推荐)开关7“刷新”视频页面。…

    2022年4月10日
    121
  • 医咖会SPSS免费教程学习笔记—R*C卡方检验

    医咖会SPSS免费教程学习笔记—R*C卡方检验1.R*C卡方检验需要满足的假设(1)两个变量为无序分类变量(2)观测值相互独立(3)任意单元格的期望频数>52.SPSS实操请依次点击:分析—描述统计—交叉表—将变量拖入右侧相应的行和列框中—点击右侧的“统计”)选择“卡方”和“Phi和克莱姆V”—继续点击右侧的“单元格”—选择“实测”,“期望”,“行”,“列”和“调整后标准化”—确定3.两两比较标准化残差的绝对值>3,差异存在统计学意义…

    2022年5月13日
    75
  • 免费国内php空间_全球vps交流网站超级vps管理器

    免费国内php空间_全球vps交流网站超级vps管理器网站名称:000webhost.com250MB硬盘空间,100GB数据流量有足够的空间存放你的网站,emails 和数据库. 服务器为百兆独享接入Internet, 所以可以提供100G的数据流量.PHP 和MySQL 数据库支持不想其他免费空间,对php和mysql的功能进行限制.在这里你可以使用最新版本的php和mysql. 所有以下php特性都支持:

    2022年9月21日
    4
  • 八大排序算法(java实现) 冒泡排序 快速排序 堆排序 归并排序 等[通俗易懂]

    八大排序算法(java实现) 冒泡排序 快速排序 堆排序 归并排序 等[通俗易懂]八大排序算法一、直接插入-1.基本思路-2.代码实现-3.时间复杂度和空间复杂度二、希尔排序-1.基本思路-2.代码实现-3.时间复杂度和空间复杂度三、简单选择-1.基本思路-2.代码实现-3.时间复杂度和空间复杂度四、堆排序-1.基本思路-2.代码实现-3.时间复杂度和空间复杂度五、冒泡排序-1.基本思路-2.代码实现-3.时间复杂度和空间复杂度六、快速排序-1.基本思路-2.代码实现-3.时间复杂度和空间复杂度七..

    2022年7月13日
    17
  • java8静态变量放在哪个区_jdk8.0 内存划分

    java8静态变量放在哪个区_jdk8.0 内存划分java1.8之前内存区域分为方法区、堆内存、虚拟机栈、本地方法栈、程序计数器。下图所示:方法区(MethodArea)与Java堆一样,是各个线程共享的内存区域,它用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。虽然Java虚拟机规范把方法区描述为堆的一个逻辑部分,但是它却有一个别名叫做Non-Heap(非堆),目的应该是与Java堆区分开来。很多人都更愿意把方…

    2022年6月12日
    146
  • 文本分类常用算法比较

    文本分类常用算法比较本文对文本分类中的常用算法进行了小结,比较它们之间的优劣,为算法的选择提供依据。 一、决策树(DecisionTrees)优点: 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。 3、能够同时处理数据型和常规型属性。其他的

    2022年5月8日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号