用Python分析2000款避孕套,得出这些有趣的结论

用Python分析2000款避孕套,得出这些有趣的结论到现在为止,我们的淘宝教程已经写到了第四篇,前三篇分别是:第一篇:Python模拟登录淘宝,详细讲解如何使用requests库登录淘宝pc端。第二篇:淘宝自动登录2.0,新增Cookies序列化,教大家如何将cookies保存起来。第三篇:Python爬取淘宝商品避孕套,教大家如何爬取淘宝pc端商品信息。今天,我们来看看淘宝系列的第四篇我们在上一篇的时候已经将淘宝数据爬取下来了,…

大家好,又见面了,我是你们的朋友全栈君。

到现在为止,我们的淘宝教程已经写到了第四篇,前三篇分别是:

  • 第一篇:Python模拟登录淘宝,详细讲解如何使用requests库登录淘宝pc端。
  • 第二篇:淘宝自动登录2.0,新增Cookies序列化,教大家如何将cookies保存起来。
  • 第三篇:Python爬取淘宝商品避孕套,教大家如何爬取淘宝pc端商品信息。

以上详细教程以及所有源码,扫描下方二维码关注vx公号「裸睡的猪」回复:淘宝 即可查看!
在这里插入图片描述

今天,我们来看看淘宝系列的第四篇

我们在上一篇的时候已经将淘宝数据爬取下来了,但是并没有做数据分析。所以今天这篇文章就是教大家如何去分析数据,得出一些有用的结论!

Python语言相比其他语言的优势在哪里?猪哥认为是数据分析人工智能这两大块,而且这两个方向需求会慢慢增大,所以那些想学习Python却不知道要朝着哪个目标学习的同学可以考虑往这两个方向发展!

一、分析目标

数据分析之前我们需要清楚的知道自己想要分析什么东西,也就是先搞清楚我们的目标。在公司可能是公司财报、用户增量变化、产品受欢迎程度、一些报表等等。

那我们今天的目标有哪些呢?我们来看看:

  1. 分析避孕套标题高频关键字
  2. 分析避孕套标题高频关键字 与 商品数量关系
  3. 分析避孕套标题高频关键字 与 平均销量关系
  4. 分析避孕套标题高频关键字 与 平均售价关系
  5. 分析避孕套商品价格区间分布关系
  6. 分析避孕套商品销量区间分布关系
  7. 分析避孕套商品价格区间 与 平均销量关系
  8. 分析避孕套商家数量全国分布关系
  9. 分析避孕套商家全国平均销量关系

注意: 以上数据分析全部基于上次爬取的2500款淘宝商品(默认排序),并不代表淘宝所有避孕套商品!

二、分析实现

有了明确的目标之后,我们就要开始技术选型。

首先数据处理的库这个很好确定,基本就是numpypandas这两个必备的库,所以大家首先确保已经安装了这两个库。

然后数据可视化库呢?这么多可视化库该怎么选?如果你不知道怎么选,那猪哥给你推荐:pyecharts 这个由中国人开发的可视化库,想要什么类型的图在下面文档里面找就行。

中文文档:https://pyecharts.org/#/zh-cn/intro
源码地址:https://github.com/pyecharts/pyecharts

最后技术选型完毕,我们就可以开始正式的敲代码分析了。(分析的标题将和上面的分析目标一一对应)

0.数据清洗

在我们数据分析之前,我们需要对数据进行清洗。因为从淘宝爬取下来的数据并不是标准的数据,比如:商品销量,爬取下来的数据是:2.5万 人付款,我们需要将它转为:25000(整型),这样才方面后面的处理!

我们先来看看从淘宝爬取的原始数据,看看那些数据需要清洗
在这里插入图片描述
根据使用库的经验猪哥认为有两列数据需要清洗:1、销量转成整型 2、地区转成只包含省份,具体如何清洗我们直接看代码吧!
在这里插入图片描述
大家可以看到最后猪哥又从新生成了一个excel文件,目的就是不去污染原始数据,因为原始数据非常重要,所以我们在以后的数据处理中要尽量保存好原始数据,多备份几个都不多余!

1.分析避孕套标题高频关键字

数据清洗完毕之后,我们就可以开始分析了。

分析标题高频关键字这都是老生常谈的一个流程,也就是使用jieba分词,然后统计词频,最后生成一个词云图,我相信经常看猪哥公众号的同学看都看腻了吧,这种小功能闭着眼睛都会了。
在这里插入图片描述
十几行代码就搞定了,我们来看看效果图吧
在这里插入图片描述
分析结论:

  1. 从整体看商家取名偏爱情趣二字
  2. 从材质看尿酸的最多
  3. 从功能看颗粒、螺纹的较多

ps:别问猪哥最中意哪个词,问就是延时

2.分析避孕套标题高频关键字 与 商品数量关系

上面我们只看到大概哪些功能受欢迎,如果需要看具体的数据怎么办呢?

我们就来统计一下包含这些高频关键词的商品数据数量吧,代码讲解在图片下方,下同!
在这里插入图片描述
我们取最高频的20个关键字,然后遍历所有数据的标题中是否包含其中关键字,如果包含则该关键字的value就 1。来看看生成的柱状图效果吧!
在这里插入图片描述
分析结论:

  1. 包含情趣二字的商品有1150款,占到总数(2500款 )的46%。
  2. 前三甲是:情趣、尿酸、颗粒

ps:猪哥有个疑问想请教各位老司机:这个 免洗 是咋玩的?

3.分析避孕套标题高频关键字 与 平均销量关系

这个分析有意思了,就相当于用户更喜欢哪种功能或者材质的套套。

在这里插入图片描述
在这里插入图片描述
高频关键字与平均销量分析数据的实现方法是,同样遍历所有数据的标题,如果包含某个关键字,则把该项数据的销量放在关键字的value中(一个list),统计完后再对每个关键字的value进行求平均值,最后再根据平均销量排序。来看看效果吧!

在这里插入图片描述
分析结论:

  1. 螺纹功能平均销量最高,大家的最爱
  2. 功能平均销量前三分别是:螺纹、颗粒、狼牙
  3. 小号竟然上榜,哈哈

ps:有很多同学问:为什么不是超薄?超薄自己是爽了,可女朋友呢?

在这里插入图片描述

4.分析避孕套标题高频关键字 与 平均售价关系

分析完大家喜欢的功能,再来分析下这些功能的价格如何?哪些功能的避孕套比较贵呢?
在这里插入图片描述
在这里插入图片描述
高频关键字 与 平均售价关系分析原理与上面是相似的,使用的同一个方法,只不过是将原来的销量换成价格,来看看效果图吧!
在这里插入图片描述
分析结果:

  1. 可以看到前排几个基本都是关于材质的
  2. 凝胶、透明质、免洗这三项均价最贵,超过100大洋

ps:类似凝胶、透明质、免洗的哪位老司机用过,和一般的有啥区别?

5.分析避孕套商品价格区间分布关系

商品的标题和功能差不多分析完了,我们来分析下价格吧!
在这里插入图片描述
在这里插入图片描述
猪哥人为的对价格进行了划分,一共分为:‘0-20’, ‘21-40’, ‘41-60’, ‘61-80’, ‘81-100’, ‘101-120’, ‘121-150’, ‘151-200’, ‘200以上’这9个区间,然后对数据切割、统计、排序,最后分别生成柱状图和饼图。
在这里插入图片描述
在这里插入图片描述
分析结论:

  1. 价格区间在21-40的商品最多为778款,大约占比31%。
  2. 价格在一百以内与超过一百的商品比大概为7:1

ps:没想到还有这么多超过100块的,我想问下200块价格的套套是啥感觉?

6.分析避孕套商品销量区间分布关系

分析完价格当然是分析销量区间了

在这里插入图片描述
在这里插入图片描述
销量区间分布分析实现原理:认为为销量分区,大概分为:‘一千以内’, ‘一千到五千’, ‘五千到一万’, ‘一万到五万’, ‘五万到十万’, ‘十万以上’,这六个区间,然后同上方法进行统计、排序最后可视化。
在这里插入图片描述
在这里插入图片描述
分析结论:

  1. 销量在1000以内的最多,大概占比90%
  2. 销量过万的一共也才10款,说明爆款真的很少
  3. 有一款套套销量竟然超过10万

ps:想知道那款超过10万销量的避孕套商品信息吗?关注猪哥微信公众号「裸睡的猪」回复:爆款套套,即可查看!

7.分析避孕套商品价格区间 与 平均销量关系

假如你是一个避孕套卖家,新推出一款避孕套,你想知道价格定为多少销量才会比较高呢?

这时候我们就可以通过分析价格与商品的销量关系,用实际的数据来定价,这也正是数据分析的价值之一。

在这里插入图片描述
商品价格区间 与 平均销量关系分析实现原理是:使用pandas自动分区将价格划分为12个分区,然后对销量数据分组、求平均值,来看看可视化之后的效果。
在这里插入图片描述
分析结论:

  1. 定价在31.9-39这个区间平均销量最高,为893
  2. 定价在10元以内的销量竟然高居第二

ps:谁用过10以内一盒的套套,出来走走

8.分析避孕套商家数量全国分布关系

标题、价格、销量都分析过了,最后我们还分析下商家位置的数据。

分析的目标是统计全国各省避孕套商家数量,然后做成热力图和柱状图。
在这里插入图片描述
统计商家数量还是比较简单,因为我们之前在数据清洗的时候已经只保留了省份数据,所以直接value_counts()就可以的到想要的数据,看看效果如何!
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
分析结论:

  1. 避孕套商家前三甲:广东、上海、浙江

ps:贵州四周都有卖套套的,为何就它没有?难道和地理有关?

9.分析避孕套商家全国平均销量关系

分析完商家数后,我们来看看各省的平均销量吧。
在这里插入图片描述
商家全国平均销量关系分析实现原理:我们新创建一个透视表并对销量求平均值,然后再排序,最后生成热力图和柱状图。
在这里插入图片描述
在这里插入图片描述

分析结论:

  1. 出乎意料的是山西39个商家平均销量竟然是第一为1535。

ps:为何山西平均销量是第一?原因是啥真想不通

三、总结

通过上面的数据分析,我们得到了一些有趣的结论:

  1. 用户偏爱螺纹、颗粒、狼牙等功能
  2. 凝胶、透明质、免洗这三项均价最贵,超过100大洋
  3. 价格区间在21-40的商品最多为778款,大约占比31%
  4. 销量在1000以内的最多,大概占比90%
  5. 定价在31.9-39这个区间平均销量最高,为893
  6. 避孕套商家数量前三甲:广东、上海、浙江
  7. 山西省平均销量最高为山西

通过上述分析结果,如果猪哥作为一个避孕套商家,想要推出一款产品,设置标题带螺纹、颗粒、狼牙,价格设置在31.9-39元,这样可能会更畅销一些。

数据分析作为一把利刃,能让你看见别人看不见的事物,如果使用得当完全可以作为你创业的一个重要支点!

最后猪哥再送你一句忠告:想学数据分析,一定要学好pandas!!!

获取源码:关注微信公众号「裸睡的猪」回复:分析套套 即可获取!
在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/141624.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 腾讯云ssl证书_腾讯云认证证书

    腾讯云ssl证书_腾讯云认证证书如今在网站使用https已经是非常普遍的事情,对于站长来说,https证书似乎已经成为了必备,今天我们为大家介绍申请腾讯云https证书的方法与过程首先打开腾讯云的管理控制台,进入证书管理页面,我们可以看到这里有一个叫做申请证书的按钮,点击它腾讯云会让你选择证书的类型,因为我们要申请免费的,选择左边的亚洲诚信免费版DVSSL证书即可,右边的为收费证书填入自己的域名以及申请邮箱,注意域名的格式为你需…

    2022年9月9日
    0
  • 模型视图矩阵和投影矩阵_马尔可夫模型

    模型视图矩阵和投影矩阵_马尔可夫模型1概述机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统工作的基本过程是获取目标的图像后,对图像进行识别、特征提取、分类、数学运算等分析操作,并根据图像的分析计算结果,来对相应的系统进行控制或决策的过程。在很多机器视觉应用中,都需要用到机器视觉测量,即根据目标的图像,来得到目标在实际空间中的物理位置,最典型的如行走机器人、SLAM等。要根据图像中的目标像素位置,得到目标的物理空间位置,我们需要首先有一个图像像素坐标与物理空间坐标的映射关系,这种能够表达空间位置如何映射到图像像素位置的数学公式,就

    2022年10月5日
    0
  • 彻底理解Java内存模型,它为什么会引发线程安全问题【吐血总结】

    彻底理解Java内存模型,它为什么会引发线程安全问题【吐血总结】近日,有热心市民就”Java内存模型”提出质疑:线程是否会把所有需要操作的数据全加载到内存

    2022年6月5日
    39
  • [文摘]上软解散相关

    [文摘]上软解散相关真实系列文摘之上海软星仙剑开发组解散真正内幕—–附.上软人最后留给玩家的话我不是个疯狂的仙剑迷,但我有朋友是;我不是个对看不管惯的社会现象能挺身而出的人,但还是喜欢去在意去关心那些事…下面这个算不上是什么新闻了,但如过是玩过仙剑系列觉得还不错的人,对游…

    2022年5月19日
    42
  • 国内可用的Internet时间同步服务器地址(NTP时间服务器)[通俗易懂]

    国内可用的Internet时间同步服务器地址(NTP时间服务器)[通俗易懂]不知道什么鬼我这系统自带的Internet时间同步服务器地址居然不可用,终端ping系统自带服务器两个居然都不通???难道时间服务器也和谐么?好在阿里云提供了7个NTP时间服务器也就是Interne

    2022年7月1日
    168
  • 语义分割步骤_实时语义分割

    语义分割步骤_实时语义分割 深度学习发展到现在,各路大神都发展出了各种模型,这里就做个伸手党吧。在深度学习实现过程中最重要的最花时间的我觉得应该是数据预处理与后处理,会极大影响最后效果,至于模型,感觉像是拼乐高积木,一个模块一个模块地叠加,拼成最适合自己的模型。1数据预处理1.1图像切割 一般而言,训练集会是一整张大图,所以需要自己切割成小图训练,可以做切割,也可以在训练时划窗读取,最好先做切割,可以检查数据。切…

    2022年8月21日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号