数据挖掘应用实例分析

数据挖掘应用实例分析数据挖掘应用实例分析——个性化推荐系统​ 数据挖掘技术,一门基于计算机技术与大数据时代信息处理需求的技术产物,从世纪之交的火热发展以来,不知不觉间,早已应用到我们生活的方方面面:电子邮箱中的垃圾邮件分类、电影院的票房预测、网页上的广告推荐、语音识别、电网语义精确搜索等。还有人工智能、自然语言处理、数据修正等。我们认为,数据挖掘技术将成为互联网时代应用最广泛的技术之一,它有可能为人类社会带来一个新的时代。​ 但是由于笔者才疏学浅,今天我们暂不谈得那么高深,只分析的一个常见的应用实例——个性化推荐系统。

大家好,又见面了,我是你们的朋友全栈君。

数据挖掘应用实例分析

——个性化推荐系统

​ 数据挖掘技术,一门基于计算机技术与大数据时代信息处理需求的技术产物,从世纪之交的火热发展以来,不知不觉间,早已应用到我们生活的方方面面:电子邮箱中的垃圾邮件分类、电影院的票房预测、网页上的广告推荐、语音识别、电网语义精确搜索等。还有人工智能、自然语言处理、数据修正等。我们认为,数据挖掘技术将成为互联网时代应用最广泛的技术之一,它有可能为人类社会带来一个新的时代。

​ 但是由于笔者才疏学浅,今天我们暂不谈得那么高深,只分析的一个常见的应用实例——个性化推荐系统。

​ 个性化推荐最初的诞生,是由于在逐渐信息过载的时代中,适当的筛选可以让用户高效地获得自己所需要的信息。后来才逐步应用于商业,尤其是成为了电商行业的有效销售手段;还有一些文化、社交性的站点(比如豆瓣、知乎、网易云等)。

​ 推荐系统是自动联系用户和物品的一种工具,它通过研究用户的兴趣爱好,来进行个性化推荐。它与搜索引擎的不同在于,它不需要用户提供输入目标,而是基于历史记录自动推荐,是一种主动的机制。它能够通过分析用户的历史行为来对用户的兴趣进行建模,从而主动给用户推荐可满足他们兴趣和需求的信息。每个用户所得到的推荐信息都是与自己的行为特征和兴趣有关的,而不是笼统的大众化信息,因此称之为“个性化”。

​ 关于推荐引擎的工作原理,首先它需要得到一些基本信息,主要包括:一、要推荐的内容的元数据,如关键字。二、用户的基本信息,如性别、年龄、职业。三、用户的偏好,偏好信息又可以分为显式用户反馈和隐式用户反馈。显式用户反馈是用户在网站上自然浏览或者使用网站以外,显式地提供的反馈信息,如用户对物品的评分,或者对物品的评论等。

​ 隐式用户反馈是用户在使用网站时产生的数据,隐式地反映了用户对物品的喜好,如用户购买了某物品,用户查看了某物品的信息,用户在某页面停留的时间等。推荐引擎通过对这些信息的统计分析关联,再给用户个性化地推荐相应物品或信息。

​ 对于当前大部分的推荐机制可以进行以下分类:一、基于人口统计学的推荐,即根据用户个人的基本数据信息来发现用户的相关程度。二、基于内容的推荐,即根据不同内容的元数据,进行内容相关性的分析。三、根据协同过滤的推荐,通过对用户偏好信息的过滤,发现不同内容的相关性或者不同用户的相关性。

​ 这些数据挖掘有关技术已经在很多领域取得了成就,譬如推荐系统应用的鼻祖Amazon,就是通过消费偏好对比以及一些混合手法,来对用户进行精准的页面推荐,现在的淘宝、京东、天猫等电商平台显然也采用了这种方式进行个性化推荐。个性化的流量分配可以最大化流量的使用效率,这使得它们的获客成本居高不下。

​ 而电商领域的个性化推荐也面临以下挑战:由于推荐是基于已有信息对用户意图与心理进行的猜测,及时识别用户每个行为背后的真实意图,甚至每个页面、每个标题对用户心理的影响就十分重要,这些关键的影响因素可能是一张购物券、一张明星街拍、一个偶遇的促销活动,尤其是激情消费易发的当下。这里面涉及到较为复杂的用户购物状态的推理和判定,如果不借助人工输入,比如通过产品设计提供用户筛选接口,让用户人工输入限制项,典型的比如过滤器,负反馈,则对目前的机器算法是一个非常大的挑战。

​ 还有一个问题就是用户体验问题。这些平台,乃至个性化推荐的算法,本质上都是为了用户服务的。可以看到,常常被抱怨的体验问题包括买了还推,推荐商品品类单一,没有让人眼前一亮的商品能满足一下发现的惊喜等等不一而足。往往这些体验问题的解决都需要人工规范的干预,但凡有规则的介入比如加入购买过滤,类目打散展示等策略,都会造成交易类指标的下降,平衡两者之间的关系对推荐系统是一个现实的挑战。

​ 对于个性化推荐在其他领域的应用也都面临着类似的问题。还有例如基于人口统计学的推荐机制的基于用户的基本信息对用户进行分类的方法过于粗糙,尤其是对品味要求较高的领域,如图书、电影和音乐等领域,无法得到很好的推荐效果。基于内容的推荐需要对物品进行分析和建模,推荐的质量依赖于物品模型的完整和全面程度;对于物品相似度的分析仅仅依赖于物品本身的特征,而没有考虑人对物品的态度;因为是基于用户以往的历史做出推荐,所以对于新用户有“冷启动”的问题等。还有协同推荐的效果过于依赖于用户历史偏好数据的多少和准确性;对于一些特殊品味的用户不能给予很好的推荐;由于以历史数据为基础,抓取和建模用户的偏好后,很难修改或者根据用户的使用进行演变,从而导致这个方法不够灵活。

​ 当然现在大多流行的都是混合型推荐,可能把一种推荐机制的输出当做输入送入另一个机制中,或者把不同机制得到的推荐结果都推荐给用户,这些也是能够有效提高推荐效果的。

​ 总而言之,个性化推荐是日常生活中最能体现数据挖掘的应用实例之一,人们对于它的研究已经很多年了,而且还将基于社会文化的不断变迁继续发展下去。

参考文献:
曹媛媛(京东):《大数据杂谈》
程序员生活网:《大数据教程学习》
百度百科、知乎

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/147939.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 直接sql 添加字段赋值

    直接sql 添加字段赋值SELECTuf.fans_idasfansId,u.`nickname`asnickname,u.`head`ashead,uf.`create_time`ascreateTime,1astypeFROM`user_fans`ufLEFTJOIN`user`uONuf.fans_id=u.idWHEREuf.`u…

    2025年7月29日
    3
  • 微信个人号机器人接口「建议收藏」

    微信个人号机器人接口「建议收藏」前段时间公司需求开发一套自定义的微信机器人,需求是可以自批量添加好友,自动聊天,自动回复,发朋友圈,转发语音,以及定时群发等,还可以提取聊天内容,进行数据汇总,what????微信还可以这样做!!调研开发了3个月,3个月啊!!!(主要被各种技术走偏路),终于成功了,都是走过的心酸泪,分享给大家,大家学习完,记得给我点个赞!!!大家一般需求点无非是以下几个需求:1.开发个人微信营销系统2.开发自定义的微信机器人,3.开发微信智能聊天客服系统4.定制行业内的群数据分析功能需求很

    2022年5月20日
    93
  • 常用组合数计算公式及推算[通俗易懂]

    常用组合数计算公式及推算[通俗易懂]参考:博客1博客2更多更详细请看博客2组合数的通项公式:公式1:证明:n个不同的数选择m个,第m个的选择方案为:1、选第m个:2、不选第m个:公式2:证明:性质3:证明:性质4:证明:性质5:…

    2022年7月25日
    26
  • 什么是关系型数据库和非关系型数据库_常用的三种关系型数据库

    什么是关系型数据库和非关系型数据库_常用的三种关系型数据库关系型数据库又称为关系型数据库管理系统(RDBMS),它是利用数据概念实现对数据处理的算法,达到对数据及其快速的增删改查操作。既然被称为关系型数据库,那么它的关系在哪里体现呢?举一个例子吧。比如

    2022年8月2日
    6
  • 加密原理详解:对称式加密 VS 非对称式加密[通俗易懂]

    加密原理详解:对称式加密 VS 非对称式加密[通俗易懂]一、前言在了解加密原理前,我们来看看这样一个故事。小红和小明是情侣,一天,小红给小明发短信说:“亲爱的,我银行卡上没有钱了,你给我转1万块吧。”有过上当受骗经历的人都知道这有可能是小偷偷了小红手提包,然后拿手机发的短信。不过我们小明学过加密原理,于是他回复说:“你直接拿我的银行卡刷吧,密码加上我们第一次约会的日期就是663156。”很明显,只有小明和小红知道他们第一次约会是什么时候,假设是2008年4月1号,那么小红就可以根据计算663156-200841=462315得到银行卡密码,就可以消费了。这

    2022年5月6日
    43
  • 爬虫(第一篇) IP代理池

    爬虫(第一篇) IP代理池搞虫子的都知道,IP代理是必要的方法,为什么?这个大家知道就好了,最近写了个IP代理池,给大家围观一下:开始。首先咱们找到一个免费的IP代理网站,读取人家的数据,但是注意了,注意频率别把人家给搞崩了第一:线程池,多个线程检测packagecom.*.util.thread;importorg.apache.log4j.Logger;importjava.util.concurrent.ExecutorService;importjava.util.concurrent.Ex

    2022年6月7日
    31

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号