Fiddler抓取视频数据「建议收藏」

准备工作:(1)、手机(安卓、ios都可以)/安卓模拟器,今天主要以安卓模拟器为主,操作过程一致。(2)、抓包工具:Fiddel下载地址:(https://www.telerik.com/download/fiddler)(3)、编程工具:pycharm(4)、安卓模拟器上安装抖音(逍遥安装模拟器)一、fiddler配置在tools中的options中,按照图中勾选后点击Actio…

大家好,又见面了,我是你们的朋友全栈君。

本文仅供参考学习,禁止用于任何形式的商业用途,违者自行承担责任。


准备工作:

(1)、手机(安卓、ios都可以)/安卓模拟器,今天主要以安卓模拟器为主,操作过程一致。

(2)、抓包工具:Fiddel 下载地址:(https://www.telerik.com/download/fiddler )

(3)、编程工具:pycharm

(4)、安卓模拟器上安装(逍遥安装模拟器)

一、fiddler配置

在tools中的options中,按照图中勾选后点击Actions, 选择Trust Root Certificate。

在这里插入图片描述
配置远程链接:

选择允许监控远程链接,端口可以随意设置,只要别重复就行,默认8888

在这里插入图片描述
然后:重启fiddler!!!这样配置才能生效。

二、安卓模拟器/手机配置

首先查看本机的IP:在cmd中输入ipconfig,记住这个IP

在这里插入图片描述
手机确保和电脑在同一局域网下。

手机配置:配置已连接的WiFi,代理选择手动,然后输入上图ip端口号为8888

模拟器配置:设置中长按已连接wifi,代理选择手动,然后输入上图ip端口号为8888

在这里插入图片描述
在这里插入图片描述

代理设置好后,在浏览器中输入你设置的ip:端口,例如10.10.16.194:8888,就会打开fiddler的页面。然后点击fiddlerRoot certificate安装证书,要不手机会认为环境不安全。

证书名称随便设,可能还需要设置一个锁屏密码。

在这里插入图片描述
接下来就可以在fiddler中抓到手机/模拟器软件的包了。

三、抓包

打开app,然后观察fiddler中所有的包

其中有个包,包类型为json(json就是网页返回的数据,具体百度),主机地址如图,包大小一般不小,这个就是视频包。
在这里插入图片描述

点击这个json包,在fidder右侧,点击解码,我们将视频包的json解码

在这里插入图片描述

解码后:点击aweme_list,其中每个大括号代表一个视频,每次加载一点出来,等你看完预加载的,再重新加载一些。在这里插入图片描述
Json是一个字典,我们的视频链接在:aweme_list中,每个视频下的video下的play_addr下的url_list中,一共有6个url,是完全一样的视频,可能是为了应付不同环境,但是一般第3或4个链接的视频不容易出问题,复制链接,浏览器中粘贴就能看到视频了。在这里插入图片描述

接下来解决几个问题,

1、视频数量,每个包中只有这么几个视频,那如何抓取更多呢?

这时候需要借助模拟器的模拟鼠标翻页,让模拟器一直翻页,这样就不断会出现json包了。

在这里插入图片描述

2、如何json保存在本地使用

一种方法可以手动复制粘贴,但是这样很low。

所以我们使用fidder自带的脚本,在里面添加规则,当视频json包刷出来后自动保存json包。

自定义规则包:

链接:https://pan.baidu.com/s/1wmtUUMChzuSDZFYGSyUhCg

提取码:7z0l

if (oSession.uriContains("https://api-eagle.amemv.com/aweme/v1/feed/")){
           var strBody=oSession.GetResponseBodyAsString();
           var sps = oSession.PathAndQuery.slice(-58,);
           //FiddlerObject.alert(sps)
           var filename = "C:/Users/HEXU/Desktop/数据爬取/爬取资料/raw_data" + "/" + sps + ".json";  
           var curDate = new Date();   
           var sw : System.IO.StreamWriter;  
           if (System.IO.File.Exists(filename)){  
               sw = System.IO.File.AppendText(filename);  
               sw.Write(strBody);  
           }  
           else{  
               sw = System.IO.File.CreateText(filename);  
               sw.Write(strBody);  
           }  
            
           sw.Close();  
           sw.Dispose();  
       }

点击规则脚本,然后将自定义规则放在如图所示位置:

在这里插入图片描述

这个脚本有两点需要修改的:

(1)第一行的网址:

这个是从视频包的url中摘出来的,某音会时不时更新这个url,所以不能用了也要去更新:

比如现在的已经和昨天不同了,记着修改。
在这里插入图片描述

(2)路径,那个是我设置json包保存的地址,自己一定要去修改,并创建文件夹,修改完记着点保存。在这里插入图片描述

打开设置好模拟器和脚本后,等待一会,就可以看到文件夹中保存的包了:
在这里插入图片描述


四、爬虫脚本

接下来在pycharm中写脚本获取json包里的视频链接:

导包:

import os,json,requests

伪装头:
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36’}

逻辑代码:
在这里插入图片描述

效果:在这里插入图片描述


源码:

import os,json,requests
#伪装头
headers = { 
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'}

videos_list = os.listdir('C:/Users/HEXU/Desktop/数据爬取/爬取资料/raw_data/')  #获取文件夹内所有json包名

count = 1  #计数,用来作为视频名字

for videos in videos_list:  #循环json列表,对每个json包进行操作
    a = open('./爬取资料/raw_data/{}'.format(videos),encoding='utf-8')  #打开json包
    content = json.load(a)['aweme_list'] #取出json包中所有视频

    for video in content:  #循环视频列表,选取每个视频
        video_url = video['video']['play_addr']['url_list'][4] #获取视频url,每个视频有6个url,我选的第5个
        videoMp4 =  requests.request('get',video_url,headers=headers).content #获取视频二进制代码
        with open('./爬取资料/VIDEO/{}.mp4'.format(count),'wb') as f: #以二进制方式写入路径,记住要先创建路径
            f.write(videoMp4)  #写入
            print('视频{}下载完成'.format(count)) #下载提示
        count += 1 #计数+1
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/126848.html原文链接:https://javaforall.net

(0)
上一篇 2022年4月8日 下午4:20
下一篇 2022年4月8日 下午4:40


相关推荐

  • jquery tmpl遍历

    jquery tmpl遍历最近,发现大家喜欢用模板渲染一些DOM,而且常常用模板嵌套一些逻辑,看了大家用jquerytmpl较多,遇到的问题大同小异。为了避免问题重复发生,现在就个人用过的一些常用功能,作下具体介绍,主要针对遍历。其它的大家可自行看看网上教程,推荐一个:jqueryTmpl,希望对大家有所帮助1.普通数组对象的遍历,关键词{{eachArray}}、$value、$index数据格式:varperso

    2022年6月15日
    36
  • chown和chmod命令用法_chown和chmod的作用

    chown和chmod命令用法_chown和chmod的作用1、chown用法作用:用来更改某个目录或文件的用户名和用户组的格式:chown用户名:组名文件路径(可以是就对路径也可以是相对路径)例1:chownroot:root/tmp/tmp1就是把tmp下的tmp1的用户名和用户组改成root和root(只修改了tmp1的属组).例2:chown-Rroot:root/tmp/tmp1就是把tmp下的tmp1下的所有文件的属组都改成roo…

    2022年10月20日
    4
  • 3306端口被占用解决方式

    3306端口被占用解决方式3306 端口被占用解决方式打开 phpstudy 发现 3306 端口被占用了 win r 然后 cmd 进入命令行 输入 netstat ano 查看所有端口信息接着可以 netstat ano findstr 11412 输入对应端口的 PID 可以看到当前的端口被占用情况 打开任务管理器 在详细信息中找到对应 PID 结束该任务接着就可以成功开启了

    2025年12月6日
    7
  • TreeView控件绑定到数据源

    TreeView控件绑定到数据源nbsp nbsp nbsp nbsp nbsp nbsp nbsp TreeView 控件绑定到数据源 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp TreeView 控件 nbsp nbsp nbsp nbsp nbsp nbsp nbsp ImageList 控件 nbsp nbsp nbsp nbsp nbsp nbsp nbsp 根节点的文本属性值 nbsp nbsp nbsp nbsp nbsp nbsp nbsp 要绑定的数据表 nbsp nbsp nbsp nbsp nbsp nbsp nbsp 数据表的代码列 nbsp nbsp nbsp nbsp nbsp nbsp nbsp 数据表的名称列 nbsp nbsp nbsp nbsp nbsp nbsp nbsp public

    2026年3月16日
    3
  • Mac安装ElasticSearch介绍

    Mac安装ElasticSearch介绍原文地址:https://segmentfault.com/a/1190000005792528今日项目需要一个小型的搜索的功能的支持,有很多开源的搜索引擎啦,当然Elasticsearch个人认为上手容易,安装也比较方便。ES安装前需要确认你笔记本上已经安装了java,如果没有安装了,可以oracle官网下载就行了,java弄完后,我们可以在命令后工具中输

    2022年6月21日
    122
  • 从零开始的Android:常见的UI设计模式「建议收藏」

    从零开始的Android:常见的UI设计模式「建议收藏」尽管Android允许您创建几乎任何可能需要的自定义视图或用户界面,但事实证明,在正确的情况下,有一些用户界面模式可以很好地适用于用户。在本教程中,您将学习其中的一些模式,以及它们如何通过在使用应用程序时创造出色的体验来帮助用户。1.主画面用户在打开应用程序时看到的第一个屏幕通常是最重要的。从这里开始,您的用户应该能够执行快速动作并继续前进,或者进一步深入到您的应用中以完善他们…

    2022年6月21日
    30

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号