抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?python看抖音用户画像,摩羯天蝎居然刷得最多?

大家好,又见面了,我是你们的朋友全栈君。

日刷抖音三百条,悠悠一笑乐逍遥,夜深忽醒窗外事,不知今夕是何年。

要从上个月说起,那天晚上准备睡觉了,然后朋友突然发来一个抖音热门视频。

一向一本正经苟于工作的我,竟然沉醉于小姐姐的甜蜜的笑容,加之想到抖音好像周边的人都在玩,让我不由地也下了抖音,则立马陶醉于这抖音真对味,这世界真新鲜,这世上竟有如此光鲜亮丽的美女帅哥萌娃的感叹之中,简直没舍得合上眼。

等我准备合眼的时候,看了时间,已经早上4点半了,感叹于抖音的强大,更对抖音的用户产生了浓厚的兴趣(其实就是想看看有多少漂亮的小姐姐),也巧会一点数据分析的皮,养成了小小的职业病,什么问题都希望用数据说话,就开始爬数据分析之旅。

爬数据

爬数据用的工具都比较常见,网上大家一搜的教程一大堆,这里就简单介绍下我爬取过程。

1.引入相关python库包

首先新建python工程,引入本次爬取网页数据和写入MySQL数据库所需要的requests、pymysql、bs4这三个包:

2.获取网页数据

然后如下图所示,通过编写Python代码获取到某抖音排行榜数据网站的网页信息:

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

3.HTML标签解析

接着再对DIV样式下的HTML数据包进行逐一解析,获取到我需要的作者ID、作者标签、作者性别、作者粉丝数量、视频标题、视频播放数、视频点赞数、视频评论数。其中对应网页的标签样式可以通过浏览器的F12开发选项进行快速获取。

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

循环遍历该平台选择20w个热门用户的一条数据,总共得到20W+条信息数据,解析好数据之后,再将解析好的数据写入到MySQL数据库中就可以了。

可视化及分析

成功get了数据之后,就要对数据摆弄一番做一下分析,做成一个可视化大屏。作为数据分析的老司机,自然有各种手段来让我达成目的。在这里顺带安利一下我最常用的一款能够对接python数据同时做可视化分析也很强大的工具FineBI,支撑数据挖掘、对接Hadoop等多种企业数据源不在话下,让一个小白做大屏也很酷炫。当然它对个人使用完全免费,这就很nice了。

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

1、 性别

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

没想到抖音短视频的用户男女比例据然差别这么大,女性远远多于男性。作为一本正经苟于工作的我不禁有点小小心动,分明就是海量“小姐姐”任你挑选。不过仔细想想,抖音的入口不需要注册登录就可以直接观看视频,这部分部分非活跃的普通用户里男性应该会比女性多,因为女性可能比男性更加大胆去展现自己阳光青春的一面个人揣测,这就导致了非注册男性用户没有计算到这部分比例。

2、年龄分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

在年龄分布上,24 岁以下、 25-30岁和31-35岁用户占比最高,分别占比27%、29%和26%,平均年龄在25-30岁左右。粗略推想,这个年纪的用户一般有一定经济储蓄——懂得打扮自己,观念先进——喜欢接受酷潮的东西,并在社会引领潮流。被抖音的用户年龄小小的感叹了一下,难怪可以和微信微博血拼下杀出一条血路,让各大厂奔向小视频领域。

3、地域分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

拉了一下用户数量TOP10的省份,广东、江苏和山东占据了前三甲。再把注册城市的信息按照线级城市人工整理之后,得到上面的线级城市分布数据。可以看到一、二线城市的用户居多,合计超过了60%的抖音用户分布在一二线城市。

4、星座分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

一个意外的惊喜,居然拉到了星座标签的数据,然后得到的结论更让我震惊。天蝎座和魔蝎座两个星座最多,而狮子座、白羊座则相对占比只有旗一半不到。尽管星座是一种统计学,不过这里面看来的确有着一些星座玄学?

上面是抖音用户的一些基础属性,再来看一下抖音用户们的行为特征。

5、各时段流量分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

首先是活跃用户数的活跃时间段,可以看到中午 12 点到13点之间和18 点后,抖音的用户达到两次高峰期。中午一个小时的饭后午休时间段,抖音让大家有了放松的一个良好手段,将碎片化的时间集中起来在抖音上进行消费,而晚上饭后的闲暇时光,便是将抖音作为饭后娱乐项目了。而这个时间段的发布视频数量也达到了高峰。

6、关键词分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

对视频标题的关键词汇进行了统计。可以看到整体词频方面,除了“小哥哥”、“小姐姐”以及“小助手”以外,具备强烈生活色彩的“爸爸”、“我妈”、“弟弟”、“老公”、“我家”这些词同样被高频率使用。可以看到用户们发布的内容相当贴近生活和家庭,而且都比较正能量。抖音的内容门槛很低,软件上手门槛也很低,难怪这么受大众喜欢。

7、视频时长平均点赞数

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

可以看到用户们发布的视频时长也是有规律的,时长过长过短都不适宜,10-15s的视频时长点赞都不错,其中10s的视频时长最佳。看来比较考验用户们如何把包袱压缩在10s内,过长用户可能就直接跳过了。

8、视频分类TOP5

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

最后再看一下视频分类,名人明星、娱乐、搞笑幽默、旅游和美食占据TOP5.

最终用户画像

通过以上,我们就可以直接或者间接地了解抖音的用户画像:一个25-30岁左右一二线城市的天蝎座魔蝎座的大概率女性用户,喜欢在13点和下午6点后,发布名人明星、美食类别的“吃”和”家庭“相关内容的时长在10-15s左右视频。

很好,我的目的达成。

不过这么分析完,似乎我并不能成为抖音的用户,我可能更喜欢在现实生活里吧。借用他人一句话:“抖音,却是一个有几分疗愈的地方,因为在日常生活中,就算你从不曾被取悦,在抖音,却似乎每个人都在努力取悦你”,不过对于我而言,比起活在虚无的世界里满足于娱乐活动,还是做一个活在真实世界里的人更加令我满足。当然,也可能因为我是金牛座,你呢?

最后,如果你也想尝试一下分析的话,可以下载finebi体验下~

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/136652.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • ADC采样滤波算法利用卡尔曼滤波算法详解

    ADC采样滤波算法利用卡尔曼滤波算法详解1ADC采样模型假设ADC采样的值已经为稳定状态,设k+1k+1k+1时刻ADC采样值为Xk+1Xk+1X_{k+1},则kkk时刻ADC采样值为XkXkX_k,假设k+1k+1k+1时刻的采样值为Zk+1Zk+1Z_{k+1},则有:{Xk+1=Xk,Zk+1=Xk+1+δ,δ为噪声{Xk+1=Xk,Zk+1=Xk+1+δ,δ为噪声\begin{cases}X_{k+1}=X…

    2022年6月12日
    33
  • 软件测试常见面试题

    软件测试常见面试题伴随着疫情的好转,又到了一年收获的季节。最近也有一些面试,整理下常用的测试题目,没有标准答案,需要结合自身的工作实践去应答。功能测试相关1、测试流程以及对应阶段的输出有哪些?2、Bug的优先级

    2022年8月6日
    3
  • 递归和迭代

    递归和迭代一.递归(Recursion)1.递归:以相似的方式重复自身的过程2.递归在程序中表现为:在函数的定义中直接或间接调用函数自身3.递归和循环:(1)递归是有去(递去)有回(归来),因为存在终止

    2022年7月4日
    16
  • iostat 命令详解「建议收藏」

    iostat 命令详解「建议收藏」概述iostat主要用于输出磁盘IO和CPU的统计信息。iostat属于sysstat软件包。可以用yuminstallsysstat直接安装。iostat用法用法:iostat[选项][<时间间隔>][<次数>]如下图:iostat用法命令参数:-c:显示CPU使用情况-d:显示磁盘使用情况-N:显示磁盘阵列(LVM)信息-n:显示NFS使用情况-k:以KB为单位显示-m:以M为单位显示-t.

    2022年10月6日
    0
  • linux安装pip3命令(pip3 install报错)

    1.首先安装setuptools  小伙伴们可以通过官方模块库来下载:https://pypi.python.org/pypi  这里我就直接用wget到服务器上下载了版本为19.6(小伙伴们可以尝试新的版本奥。。)wget–no-check-certificatehttps://pypi.python.org/packages/source/s/setuptools/setuptools…

    2022年4月11日
    768
  • R-L模型算法的优缺点_模型解题

    R-L模型算法的优缺点_模型解题@[TOC]LR模型相关知识点#1.LR归一化问题,什么情况可以不归一化,什么情况必须归一化,#2.为什么提到LR损失函数要能知道交叉熵,为什么是它,以它为损失函数在优化的是一个什么东西,知道它和KL散度以及相对熵的关系#3.提到LR的求解方法,比如SGD,知道SGD和BGD的区别,知道不同的GD方法有什么区别和联系,二阶优化算法知道什么,对比offlinelearning和onlinelearning的区别#4.提到调参,知道模型不同超参数的含义,以及给定一个特定情况,大概要调整哪些参数,怎么

    2022年10月10日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号