R语言用随机森林和文本挖掘提高航空公司客户满意度

全栈程序员-站长 • 2021年7月9日上午11:00 • 未分类 • 阅读 67

动机

航空业的庞大规模让人有理由关心它：它不仅直接影响数百万人（传单，飞行员，工程师等），而且数百万人因间接影响其经济实力而间接影响数百万人。

尽管北美航空业强劲，但为了保持持续增长以及作为跨地区行业领导者的持续地位，必须时刻保持警惕，以跟上客户需求。当然，在这方面的成功要求航空公司首先了解客户关心的是什么。发现航空公司客户喜欢和不喜欢他们的飞行体验是该项目的起点。

数据

为了更准确地了解飞机的哪些方面影响了客户的意见，该网站收集客户编写的几乎每家运营航空公司的航班评论。典型的评论如下：

R语言用随机森林和文本挖掘提高航空公司客户满意度

包含在这个中的变量是：

航空公司：

评论作者给出的整体航空公司评分（满分10分）

作者：评论作者的名字

日期：撰写评论的日期

customer_review：客户评论的文本

飞机：飞机类别/类型（可能性太多，无法列出;例如：波音737）

traveller_type：旅行者类型（商务，情侣休闲，家庭休闲，独奏休闲）

客舱：评论作家飞行的机舱类型（商务舱，经济舱，头等舱，特级经济舱）

航线：航班起点和目的地（例如：芝加哥至波士顿）

问题1

在座位舒适度，座舱服务，食品和饮料，娱乐和地面服务方面，飞行的哪个方面对客户的整体评价影响最大？

这是一个经典的机器学习问题，很容易提出，但难以回答，难点在于预测变量之间潜在的微妙相互作用。

我使用R包“randomForest”中的randomForest（）函数，该函数使用非参数Breiman随机森林算法生成回归模型。作为一个侧重点，它可以估计每个预测变量相对于其他预测变量对预测响应变量的重要性。这个输出是我用来确定我的五个变量中哪一个对整个飞行评级最重要的。以下是对我的数据运行时randomForest（）函数的变量重要性输出的视觉效果：

R语言用随机森林和文本挖掘提高航空公司客户满意度

根据Breiman算法，地面服务是预测客户飞行总体评分的最重要变量，其次是座椅舒适度，客舱服务，食品和饮料以及娱乐（按此顺序）。

分析了包含每个变量的评论比例。输入缺失值不可避免地会导致结果偏差，但是消除这些值会为我们带来潜在的宝贵信息。在这种情况下，我相信各方面的失踪倾向于属于“不随意丢失”的范畴，这意味着失踪的原因实际上与所讨论的变量的价值有关; 特别是，我认为，大量缺失的领域对于客户而言可能不那么重要，而缺少缺失的领域则更为重要。为了分析这一点，我绘制了包含每个变量的评论比例：

由此我们看到，机舱服务和座椅舒适度几乎包含在每个评论中，而地面服务仅包含在约55％的评论中。

问题2

美国航空公司如何在客户飞行体验的不同方面表现出色？

鉴于我们在问题1中的结果，航空公司现在可能希望将其自身与其他航空公司以及整个行业进行比较，涵盖机舱服务，娱乐，食品和饮料，地面服务和座椅舒适度等变量。为了分析这一点，我对每个航空公司以及整个行业的每个变量给予1,2,3,4,5和NA评级的评论数量进行了统计。对于座椅舒适性评级，我们有以下结果：

R语言用随机森林和文本挖掘提高航空公司客户满意度

探索了机舱服务，娱乐，食品和饮料，地面服务和座椅舒适性五个变量中的每一个，并且通过所有这些导致以下观察：

捷蓝航空对所有航空公司的座椅舒适度评分最高，因此应推崇自己作为座椅舒适性的行业领导者。同样，阿拉斯加航空公司应该推销自己作为机舱服务的行业领导者。根据问题1的结果，如果客户知道他们在座椅舒适性和客舱服务方面处于领先地位，那么JetBlue和阿拉斯加都可能获得销售增长，因为这些变量是迄今为止研究的五个变量（影响客户对a的总体印象）飞行最多。

Spirit Airlines一直主要收到1份评级，这表明在所有考虑的领域中，客户往往对他们的体验感到不满。然而，Spirit Airlines继续增长。这表明需要更多地探索航空公司客户的需求。

透视：总体而言，美国航空业在机舱服务方面做得最好，在地面服务和座椅舒适度方面表现最差（在这些领域里，比任何其他评级都少了5秒）。另外，娱乐评级也很低。

问题3

正面评论中最常出现的词是什么？负面评论？

之前的问题旨在更好地了解航空公司客户对飞行体验（机舱服务，娱乐，食品和饮料，地面服务，座椅舒适度）五个具体方面的看法，但是由于这五个领域没有考虑到所有可能影响客户整体经验，我想分析他们的评论的实际文字。为此，我使用了由R中的“tm”，“wordcloud”和“memoise”软件包组合生成的词云。我分别分析了单个航空公司和整个行业的正面和负面评论。正面评价总体评分为6/10或更高，负面评价为总评分5/10或更差的评价。

以下是整个行业的正面和负面词云：

R语言用随机森林和文本挖掘提高航空公司客户满意度

在正面和负面评论中，“时间”这个词都是最常用的三个词之一。

尽管如此，“座位”和“服务”这两个字仍然出现在前五个词中，因此对前面问题的分析得到了证实。

精神虽然在问题1和问题2中考虑的五个领域中的几乎每一个领域中都是航空公司中最差的，但它有一个负面词云，与其他负面词云不同。也就是说，Spirit的客户仍然在关于延迟和时间的文本评论中抱怨最多，

透视：航空公司的客户写的时间比其他任何事都多，其次是服务和座位。鉴于Spirit Airlines的令人惊讶的发现，节省/浪费时间可能是客户整体飞行评级的预测指标。

结论和未来的方向

尽管影响飞行员乘坐飞机体验的因素有很多，但航空公司可以通过关注航班的几个主要方面 – 特别是时间，座位舒适性和机舱服务，来提高客户满意度。

转载于:https://www.cnblogs.com/tecdat/p/11059915.html

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/100853.html原文链接：https://javaforall.net

公司

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

LeetCode刷题笔记-回溯法-括号生成

上一篇 2021年7月9日上午11:00

设计模式之抽象工厂模式代码示例

下一篇 2021年7月9日下午12:00

java script（一）

java script（一）javascriptJavaScript是什么，能干什么？一个网页的结构，是通过HTML决定的脑袋，手脚，身体CSS决定了这个网页的样式是高是矮，是胖还是瘦，是黑还是白这个网页的行为是通过JavaScript决定的走路，跑步，眨眼睛JavaScript的发展史它最初由Netscape的BrendanEich设计。JavaScript是甲骨文公司的注册商标。Ecma国际以JavaScript为基础制定了ECMAScript标准。JavaScript也可以用于其他场合，如服务器端编程。完整

全栈程序员-站长
2022年7月7日
25
小数和二进制的转换_进制转换表

小数和二进制的转换_进制转换表1.小数用二进制如何表示首先，给出一个任意实数，整数部分用普通的二进制便可以表示，这里只说小数部分如何表示例如0.6文字描述该过程如下：将该数字乘以2，取出整数部分作为二进制表示的第1位；然后再将小数部分乘以2，将得到的整数部分作为二进制表示的第2位；以此类推，知道小数部分为0。特殊情况：小数部分出现循环，无法停止，则用有限的二进制位无法准确表示一个小数，这也是在编程语言中表

全栈程序员-站长
2025年6月17日
3
navicat oracle存储过程,Navicat 运行 Oracle 存储过程示例

navicat oracle存储过程,Navicat 运行 Oracle 存储过程示例navicat存储过程界面功能点击运行时，会弹出窗口填入输入参数。使用Navicat创建存储过程在函数位置，右键新建函数，OUT参数没有默认值，写了也没用。软件自动生成存储过程框架，然后人去补充“声明变量”和“主体”部分，注意存储过程名称可以用引号，也可以不用引号。Navicat运行存储过程方法一：使用Navicat软件界面功能方法二：在查询界面创建变量并调用存储过程Orac…

全栈程序员-站长
2022年7月17日
86
Flex 3 预览版目前已经上架 Cydia BigBoss 源

Flex 3 预览版目前已经上架 Cydia BigBoss 源Flex 插件是一款可以修改应用中内容达到去除内购广告等项目的插件即使没有编程知识也能完成对已安装应用的修改改变应用显示的内容比如去除应用的启动广告内置广告横幅购买服务部分视频应用的 VIP 获取等等 Flex 还支持云端共享已做好的补丁制作完成一个应用的补丁后可以登录账号上传共享到 Flex 服务器供他人下载安装使用同样你也可以直接点击已安装应用来获取别人的补丁安装到自己

全栈程序员-站长
2026年3月17日
2
计算机快捷键任务管理器,打开电脑任务管理器快捷键是什么

计算机快捷键任务管理器,打开电脑任务管理器快捷键是什么电脑使用很广泛，很多时候在使用电脑的过程中都会用到任务管理器，学习啦小编整理的本文为大家讲解打开电脑任务管理器快捷键是什么，一起来了解吧。打开电脑任务管理器快捷键是什么设备管理器是Windows操作系统提供的对计算机硬件进行管理的一个图形化工具。一般我们可通过设备管理器查看计算机硬件的配置信息，获取相关硬件的驱动程序信息以及进行更新、禁用、停用或启用相关设备等。打开电脑任务管理器快捷键：Ctrl+…

全栈程序员-站长
2022年6月18日
31
python安装失败0x80070570_固态硬盘装win7出现错误代码0x80070570怎么办

python安装失败0x80070570_固态硬盘装win7出现错误代码0x80070570怎么办很多时候电脑遇死机蓝屏等问题后可能会选择重装系统来解决可是有番茄花园 win7 用户使用固态硬盘用 u 盘安装的方式安装系统时却出现了错误代码 0x 并提示 window 无法安装所需文件文件可能损坏或丢失这该怎么办呢下面由小编给大家介绍固态硬盘装 win7 出现错误代码 0x 怎么办原因可能是分区工具的问题分区出问题导致安装文件不认识分区所以出现上面的安装程序

全栈程序员-站长
2026年3月17日
2

R语言用随机森林和文本挖掘提高航空公司客户满意度

动机

数据

问题1

问题2

问题3

结论和未来的方向

关于作者

全栈程序员-站长

相关推荐

java script（一）

小数和二进制的转换_进制转换表

navicat oracle存储过程,Navicat 运行 Oracle 存储过程示例

Flex 3 预览版目前已经上架 Cydia BigBoss 源

计算机快捷键任务管理器,打开电脑任务管理器快捷键是什么

python安装失败0x80070570_固态硬盘装win7出现错误代码0x80070570怎么办

发表回复