Fiddler抓取视频数据「建议收藏」

准备工作:(1)、手机(安卓、ios都可以)/安卓模拟器,今天主要以安卓模拟器为主,操作过程一致。(2)、抓包工具:Fiddel下载地址:(https://www.telerik.com/download/fiddler)(3)、编程工具:pycharm(4)、安卓模拟器上安装抖音(逍遥安装模拟器)一、fiddler配置在tools中的options中,按照图中勾选后点击Actio…

大家好,又见面了,我是你们的朋友全栈君。

本文仅供参考学习,禁止用于任何形式的商业用途,违者自行承担责任。


准备工作:

(1)、手机(安卓、ios都可以)/安卓模拟器,今天主要以安卓模拟器为主,操作过程一致。

(2)、抓包工具:Fiddel 下载地址:(https://www.telerik.com/download/fiddler )

(3)、编程工具:pycharm

(4)、安卓模拟器上安装(逍遥安装模拟器)

一、fiddler配置

在tools中的options中,按照图中勾选后点击Actions, 选择Trust Root Certificate。

在这里插入图片描述
配置远程链接:

选择允许监控远程链接,端口可以随意设置,只要别重复就行,默认8888

在这里插入图片描述
然后:重启fiddler!!!这样配置才能生效。

二、安卓模拟器/手机配置

首先查看本机的IP:在cmd中输入ipconfig,记住这个IP

在这里插入图片描述
手机确保和电脑在同一局域网下。

手机配置:配置已连接的WiFi,代理选择手动,然后输入上图ip端口号为8888

模拟器配置:设置中长按已连接wifi,代理选择手动,然后输入上图ip端口号为8888

在这里插入图片描述
在这里插入图片描述

代理设置好后,在浏览器中输入你设置的ip:端口,例如10.10.16.194:8888,就会打开fiddler的页面。然后点击fiddlerRoot certificate安装证书,要不手机会认为环境不安全。

证书名称随便设,可能还需要设置一个锁屏密码。

在这里插入图片描述
接下来就可以在fiddler中抓到手机/模拟器软件的包了。

三、抓包

打开app,然后观察fiddler中所有的包

其中有个包,包类型为json(json就是网页返回的数据,具体百度),主机地址如图,包大小一般不小,这个就是视频包。
在这里插入图片描述

点击这个json包,在fidder右侧,点击解码,我们将视频包的json解码

在这里插入图片描述

解码后:点击aweme_list,其中每个大括号代表一个视频,每次加载一点出来,等你看完预加载的,再重新加载一些。在这里插入图片描述
Json是一个字典,我们的视频链接在:aweme_list中,每个视频下的video下的play_addr下的url_list中,一共有6个url,是完全一样的视频,可能是为了应付不同环境,但是一般第3或4个链接的视频不容易出问题,复制链接,浏览器中粘贴就能看到视频了。在这里插入图片描述

接下来解决几个问题,

1、视频数量,每个包中只有这么几个视频,那如何抓取更多呢?

这时候需要借助模拟器的模拟鼠标翻页,让模拟器一直翻页,这样就不断会出现json包了。

在这里插入图片描述

2、如何json保存在本地使用

一种方法可以手动复制粘贴,但是这样很low。

所以我们使用fidder自带的脚本,在里面添加规则,当视频json包刷出来后自动保存json包。

自定义规则包:

链接:https://pan.baidu.com/s/1wmtUUMChzuSDZFYGSyUhCg

提取码:7z0l

if (oSession.uriContains("https://api-eagle.amemv.com/aweme/v1/feed/")){
           var strBody=oSession.GetResponseBodyAsString();
           var sps = oSession.PathAndQuery.slice(-58,);
           //FiddlerObject.alert(sps)
           var filename = "C:/Users/HEXU/Desktop/数据爬取/爬取资料/raw_data" + "/" + sps + ".json";  
           var curDate = new Date();   
           var sw : System.IO.StreamWriter;  
           if (System.IO.File.Exists(filename)){  
               sw = System.IO.File.AppendText(filename);  
               sw.Write(strBody);  
           }  
           else{  
               sw = System.IO.File.CreateText(filename);  
               sw.Write(strBody);  
           }  
            
           sw.Close();  
           sw.Dispose();  
       }

点击规则脚本,然后将自定义规则放在如图所示位置:

在这里插入图片描述

这个脚本有两点需要修改的:

(1)第一行的网址:

这个是从视频包的url中摘出来的,某音会时不时更新这个url,所以不能用了也要去更新:

比如现在的已经和昨天不同了,记着修改。
在这里插入图片描述

(2)路径,那个是我设置json包保存的地址,自己一定要去修改,并创建文件夹,修改完记着点保存。在这里插入图片描述

打开设置好模拟器和脚本后,等待一会,就可以看到文件夹中保存的包了:
在这里插入图片描述


四、爬虫脚本

接下来在pycharm中写脚本获取json包里的视频链接:

导包:

import os,json,requests

伪装头:
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36’}

逻辑代码:
在这里插入图片描述

效果:在这里插入图片描述


源码:

import os,json,requests
#伪装头
headers = { 
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'}

videos_list = os.listdir('C:/Users/HEXU/Desktop/数据爬取/爬取资料/raw_data/')  #获取文件夹内所有json包名

count = 1  #计数,用来作为视频名字

for videos in videos_list:  #循环json列表,对每个json包进行操作
    a = open('./爬取资料/raw_data/{}'.format(videos),encoding='utf-8')  #打开json包
    content = json.load(a)['aweme_list'] #取出json包中所有视频

    for video in content:  #循环视频列表,选取每个视频
        video_url = video['video']['play_addr']['url_list'][4] #获取视频url,每个视频有6个url,我选的第5个
        videoMp4 =  requests.request('get',video_url,headers=headers).content #获取视频二进制代码
        with open('./爬取资料/VIDEO/{}.mp4'.format(count),'wb') as f: #以二进制方式写入路径,记住要先创建路径
            f.write(videoMp4)  #写入
            print('视频{}下载完成'.format(count)) #下载提示
        count += 1 #计数+1
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/126848.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • html静态网页生成器_网页后端制作

    html静态网页生成器_网页后端制作一、文章编辑页制作当首页制作完毕后,需要显示内容就需要有文章数据,此时我们创建一个文章编辑页增加对应的数据。那么我们创建一个页面,命名为文章发布页:接着我们查看标题部分:此部分为左右两边,左侧为标题提示输入和一个标题的文本输入框,右侧是一个发布按钮,此时我们创建左右两行:由于左右两行需要在同一行显示,那么此时我们就需要设置左右两行的宽度为50%,使其不占满超过100%的宽度居于一行,并且需要设置高度为包裹:接着在左侧添加一个文本以及一个输入框:那么右侧就是一个发布按钮,发布按钮更改

    2022年10月20日
    0
  • upx脱壳日记[通俗易懂]

    upx脱壳日记[通俗易懂]一、静态方法upx-d有时候可能会失败,需要切换使用正确的UPX版本。Windows下内置对各UPX版本的第三方图形化界面UPXShell工具,可以方便的切换版本,通过go按钮,可以切换upx加壳版本与脱壳版本二、动态方法(手脱)虽然UPX本身可以脱壳,但是UPX是基于加壳后可执行文件内存储的标识来查找并操作的,由于UPX是开源的,软件保护者可以随意修改这些标识,从而导致官方标准版本的UPX脱壳失败。因为UPX中可以改动的地方太多,所以人们在这种情况下一般采用动态脱壳x86的..

    2022年7月12日
    22
  • ps制作图案浮雕字效果_ps怎么设置文字浮雕效果

    ps制作图案浮雕字效果_ps怎么设置文字浮雕效果Q:ps如何做浮雕字A:小婷整理此问题:ps浮雕字怎么做的答案。如下面图像石头上面的浮雕字,在photoshop教程中的做法很多。小婷就以PS中图层样式中的“斜面和浮雕”来完成。感兴趣,不妨随意找一张图像,我们一起动手试试。 ps如何做浮雕字教程详细操做步骤如下:1.按下CTRL+O,弹出打开对话框,选择石头图像文件。2.按下CTRL+J,复制背景图层,得到图层1.3.

    2022年9月5日
    2
  • OpenCV相机标定全过程

    OpenCV相机标定全过程findChessboardCorners()棋盘格角点检测boolfindChessboardCorners(InputArrayimage, SizepatternSize, OutputArraycorners, intflags=CALIB_CB_ADAPTIVE_THRESH+ …

    2022年5月8日
    52
  • Redis的配置文件详解「建议收藏」

    Redis的配置文件详解「建议收藏」目录1、开头说明2、INCLUDES3、MODULES4、NETWORK5、GENERAL6、SNAPSHOTTING7、REPLICATION8、SECURITY9、CLIENTS10、MEMORYMANAGEMENT11、APPENDONLYMODE12、LUASCRIPTING13、REDISCLUSTER资料推荐   上一篇博客我们介绍了如何安装Redis,在Redis的解压目录下有个很重要的配置文件redis.conf (/opt/redis-4.0.9目录下),

    2022年6月9日
    38
  • linux java卸载再安装

    linux java卸载再安装先卸载原有的rpm-qa|grepjava#找到已存在的,删掉:rpm-e-nodeps+文件名删掉yum-ylistjava*yum-yinstall#在找到上面需要到版本来安装

    2022年5月19日
    39

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号