实战模拟│使用多进程教你下载 m3u8 加密或非加密视频「建议收藏」

实战模拟│使用多进程教你下载 m3u8 加密或非加密视频「建议收藏」下载m3u8加密或非加密视频,让你视频自由

大家好,又见面了,我是你们的朋友全栈君。

目录

一、两者不同

二、爬虫源码

三、爬虫内容详解


一、两者不同

  • m3u8 是一种基于 HTTP Live Streaming 文件视频格式,它主要是存放整个视频的基本信息和分片(Segment)组成。
  • 相信大家都看过m3u8格式文件的内容,我们直来对比一下有什么不同,然后教大家怎么用python多进程实现下载并且合并。
  • 非加密 的m3u8文件

实战模拟│使用多进程教你下载 m3u8 加密或非加密视频「建议收藏」

  •  加密 的m3u8文件

实战模拟│使用多进程教你下载 m3u8 加密或非加密视频「建议收藏」

  •  相信眼尖的小伙伴已经看出了2个内容的不同之处,对的,其实区别就在加密文件的第 5 行的 #EXT-X-KEY 的信息
  • 这个信息就是用来视频内容解密的,其实里面的内容大多是一段字符串,其实也就是解密时候的KEY
  • 那么这个怎么去解密呢,我们暂时不管,我们先来解释一下每行的意思
  • 第一行: #EXTM3U 声明这是一个m3u8的文件
  • 第二行: #EXT-X-VERSION 协议的版本号
  • 第三行: #EXT-X-MEDIA-SEQUENCE 每一个media URI 在 PlayList中只有唯一的序号,相邻之间序号+1
  • 第四行: #EXT-X-KEY  记录了加密的方式,一般是AES-128以及加密的KEY信息
  • 第五行: #EXTINF 表示这段视频碎片的持续时间有多久
  • 第六行: sA3LRa6g.ts 视频片段的名称,获取的时候需要拼接上域名,找到文件的正确的路径

二、爬虫源码

#!/usr/bin/env python
# encoding: utf-8
'''
#-------------------------------------------------------------------
#                   CONFIDENTIAL --- CUSTOM STUDIOS
#-------------------------------------------------------------------
#
#                   @Project Name : 多进程M3U8视频下载助手
#
#                   @File Name    : main.py
#
#                   @Programmer   : Felix
#
#                   @Start Date   : 2020/7/30 14:42
#
#                   @Last Update  : 2020/7/30 14:42
#
#-------------------------------------------------------------------
'''
import requests, os, platform, time
from Crypto.Cipher import AES
import multiprocessing
from retrying import retry

class M3u8:
    '''
     This is a main Class, the file contains all documents.
     One document contains paragraphs that have several sentences
     It loads the original file and converts the original file to new content
     Then the new content will be saved by this class
    '''
    def __init__(self):
        '''
        Initial the custom file by self
        '''
        self.encrypt = False
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0"
        }

    def hello(self):
        '''
        This is a welcome speech
        :return: self
        '''
        print("*" * 50)
        print(' ' * 15 + 'm3u8链接下载小助手')
        print(' ' * 5 + '作者: Felix  Date: 2020-05-20 13:14')
        print(' ' * 10 + '适用于非加密 | 加密链接')
        print("*" * 50)
        return self

    def checkUrl(self, url):
        '''
        Determine if it is a available link of m3u8
        :return: bool
        '''
        if '.m3u8' not in url:
            return False
        elif not url.startswith('http'):
            return False
        else:
            return True

    def parse(self, url):
        '''
        Analyze a link of m3u8
        :param url: string, the link need to analyze
        :return: list
        '''
        container = list()
        response = self.request(url).text.split('\n')
        for ts in response:
            if '.ts' in ts:
                container.append(ts)
            if '#EXT-X-KEY:' in ts:
                self.encrypt = True
        return container

    def getEncryptKey(self, url):
        '''
        Access to the secret key
        :param url: string, Access to the secret key by the url
        :return: string
        '''
        encryptKey = self.request("{}/key.key".format(url)).content
        return encryptKey

    def aesDecode(self, data, key):
        '''
        Decode the data
        :param data: stream, the data need to decode
        :param key: secret key
        :return: decode the data
        '''
        crypt = AES.new(key, AES.MODE_CBC, key)
        plain_text = crypt.decrypt(data)
        return plain_text.rstrip(b'\0')

    def download(self, queue, sort, file, downPath, url):
        '''
        Download the debris of video
        :param queue: the queue
        :param sort: which number debris
        :param file: the link of debris
        :param downPath: the path to save debris
        :param url: the link of m3u8
        :return: None
        '''
        queue.put(file)

        baseUrl = '/'.join(url.split("/")[:-1])

        if self.encrypt:
            self.encryptKey = self.getEncryptKey(baseUrl)

        if not file.startswith("http"):
            file = baseUrl + '/' +file

        debrisName = "{}/{}.ts".format(downPath, sort)

        if not os.path.exists(debrisName):
            response = self.request(file)
            with open(debrisName, "wb") as f:
                if self.encrypt:
                    data = self.aesDecode(response.content, self.encryptKey)
                    f.write(data)
                    f.flush()
                else:
                    f.write(response.content)
                    f.flush()

    def progressBar(self, queue, count):
        '''
        Show progress bar
        :param queue: the queue
        :param count: the number count of debris
        :return: None
        '''
        print('---一共{}个碎片...'.format(count))
        offset = 0
        while True:
            offset += 1
            file = queue.get()
            rate = offset * 100 / count
            print("\r%s下载成功,当前进度%0.2f%%, 第%s/%s个" % (file, rate, offset, count))
            if offset >= count:
                break

    @retry(stop_max_attempt_number=3)
    def request(self, url, params):
        '''
        Send a request
        :param url: the url of request
        :param params: the params of request
        :return: the result of request
        '''
        response = requests.get(url, params=params, headers=self.headers, timeout=10)
        assert response.status_code == 200
        return response

    def run(self):
        '''
        program entry, Input basic information
        '''
        downPath = str(input("碎片的保存路径, 默认./Download:")) or "./Download"
        savePath = str(input("视频的保存路径, 默认./Complete:")) or "./Complete"
        clearDebris = bool(input("是否清除碎片, 默认True:")) or True
        saveSuffix = str(input("视频格式, 默认ts:")) or "ts"

        while True:
            url = str(input("请输入合法的m3u8链接:"))
            if self.checkUrl(url):
                break

        # create a not available folder
        if not os.path.exists(downPath):
            os.mkdir(downPath)

        if not os.path.exists(savePath):
            os.mkdir(savePath)

        # start analyze a link of m3u8
        print('---正在分析链接...')
        container = self.parse(url)
        print('---链接分析成功...')

        # run processing to do something
        print('---进程开始运行...')
        po = multiprocessing.Pool(30)
        queue = multiprocessing.Manager().Queue()
        size = 0
        for file in container:
            sort = str(size).zfill(5)
            po.apply_async(self.download, args=(queue, sort, file, downPath, url,))
            size += 1

        po.close()
        self.progressBar(queue, len(container))
        print('---进程运行结束...')

        # handler debris
        sys = platform.system()
        saveName = time.strftime("%Y%m%d_%H%M%S", time.localtime())

        print('---文件合并清除...')
        if sys == "Windows":
            os.system("copy /b {}/*.ts {}/{}.{}".format(downPath, savePath, saveName, saveSuffix))
            if clearDebris:
                os.system("rmdir /s/q {}".format(downPath))
        else:
            os.system("cat {}/*.ts>{}/{}.{}".format(downPath, savePath, saveName, saveSuffix))
            if clearDebris:
                os.system("rm -rf {}".format(downPath))
        print('---合并清除完成...')
        print('---任务下载完成...')
        print('---欢迎再次使用...')

if __name__ == "__main__":
    M3u8().hello().run()

三、爬虫内容详解

  • 初始化m3u8下载类

if __name__ == "__main__":
    M3u8().hello().run()
  • hello方法

def hello(self):
    '''
    This is a welcome speech
    :return: self
    '''
    print("*" * 50)
    print(' ' * 15 + 'm3u8链接下载小助手')
    print(' ' * 5 + '作者: Felix  Date: 2020-05-20 13:14')
    print(' ' * 10 + '适用于非加密 | 加密链接')
    print("*" * 50)
    return self

  • run方法

  • hello方法其实就是欢迎语,介绍了一些基本信息
  • 如果链式调用的话,必须返回 self,初学者需要注意
def run(self):
    '''
    program entry, Input basic information
    '''
    downPath = str(input("碎片的保存路径, 默认./Download:")) or "./Download"
    savePath = str(input("视频的保存路径, 默认./Complete:")) or "./Complete"
    clearDebris = bool(input("是否清除碎片, 默认True:")) or True
    saveSuffix = str(input("视频格式, 默认ts:")) or "ts"

    while True:
    url = str(input("请输入合法的m3u8链接:"))
    if self.checkUrl(url):
        break

    # create a not available folder
    if not os.path.exists(downPath):
        os.mkdir(downPath)

    if not os.path.exists(savePath):
        os.mkdir(savePath)
  •  就是提示一些保存碎片的路径,合并完成后是否需要进行碎片清除
  • 保存的视频格式,默认是ts,因为ts一般的视频软件都可以打开,如果不放心可以输入mp4
  • 合法的连接这里调用了一个方法,checkUrl 其实就是检测下是否是合格的m3u8链接
  • 然后创建了一些不存在的文件夹
def checkUrl(self, url):
    '''
    Determine if it is a available link of m3u8
    :return: bool
    '''
    if '.m3u8' not in url:
        return False
    elif not url.startswith('http'):
        return False
    else:
        return True
  •  这里我简单的判断了下链接是否是m3u8
  • 首先链接要是m3u8结尾的
  • 其次链接需要是http打头
  • 分析输入的链接

# start analyze a link of m3u8
print('---正在分析链接...')
container = self.parse(url)
print('---链接分析成功...')
def parse(self, url):
    '''
    Analyze a link of m3u8
    :param url: string, the link need to analyze
    :return: list
    '''
    container = list()
    response = self.request(url).text.split('\n')
    for ts in response:
        if '.ts' in ts:
            container.append(ts)
        if '#EXT-X-KEY:' in ts:
            self.encrypt = True
    return container
  • 请求链接,判断是否是加密m3u8还是非加密
  • 将所有碎片文件进行返回
  • 打开多进程,开启进程池,加速下载速度

# run processing to do something
print('---进程开始运行...')
po = multiprocessing.Pool(30)
queue = multiprocessing.Manager().Queue()
size = 0
for file in container:
    sort = str(size).zfill(5)
    po.apply_async(self.download, args=(queue, sort, file, downPath, url,))
    size += 1

po.close()
  • zfill方法,其实就是在数字前填充0,因为我希望下载的文件是00001.ts,00002.ts这样有序的,最后合并的时候才不会混乱 
  • queue 是多进程共享变量的一种方式,用来显示下载的进度条
  • download方法

def download(self, queue, sort, file, downPath, url):
    '''
    Download the debris of video
    :param queue: the queue
    :param sort: which number debris
    :param file: the link of debris
    :param downPath: the path to save debris
    :param url: the link of m3u8
    :return: None
    '''
    queue.put(file)

    baseUrl = '/'.join(url.split("/")[:-1])

    if self.encrypt:
        self.encryptKey = self.getEncryptKey(baseUrl)

    if not file.startswith("http"):
    file = baseUrl + '/' +file

    debrisName = "{}/{}.ts".format(downPath, sort)

    if not os.path.exists(debrisName):
        response = self.request(file)
        with open(debrisName, "wb") as f:
            if self.encrypt:
                data = self.aesDecode(response.content, self.encryptKey)
                f.write(data)
                f.flush()
            else:
                f.write(response.content)
                f.flush()
  • 一开始就加入队列,是为了防止文件之前已经存在的情况下,导致长度不对

  • 如果是加密m3u8就通过 getEncryptKey 去获取KEY值

  • 写入文件的时候如果是加密的,就将文件进行 aesDecode 方法解密,具体请看源码

  • 进度条显示

def progressBar(self, queue, count):
    '''
    Show progress bar
    :param queue: the queue
    :param count: the number count of debris
    :return: None
    '''
    print('---一共{}个碎片...'.format(count))
    offset = 0
    while True:
        offset += 1
        file = queue.get()
        rate = offset * 100 / count
        print("\r%s下载成功,当前进度%0.2f%%, 第%s/%s个" % (file, rate, offset, count))
        if offset >= count:
            break    
  • 其实就是通过当前的下载到第几个碎片,和所有碎片的数量进行比较
  • 一旦大于等于总数的时候,就退出循环
  • 文件合并,碎片清除

  • 这里兼容了 window linux 下的合并清除命令
  • 是否清除,刚开始的选择中可设置
# handler debris
sys = platform.system()
saveName = time.strftime("%Y%m%d_%H%M%S", time.localtime())

print('---文件合并清除...')
if sys == "Windows":
    os.system("copy /b {}/*.ts {}/{}.{}".format(downPath, savePath, saveName, saveSuffix))
    if clearDebris:
        os.system("rmdir /s/q {}".format(downPath))
else:
    os.system("cat {}/*.ts>{}/{}.{}".format(downPath, savePath, saveName, saveSuffix))
        if clearDebris:
            os.system("rm -rf {}".format(downPath))
print('---合并清除完成...')
print('---任务下载完成...')
print('---欢迎再次使用...')
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/161227.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • acm总结帖_By AekdyCoin

    acm总结帖_By AekdyCoinacm总结帖_ByAekdyCoin各路大牛都在中国大陆的5个赛区结束以后纷纷发出了退役帖,总结帖,或功德圆满,或死不瞑目,而这或许又会造就明年的各种“炸尸”风波。为了考虑在发退役贴以后明年我也成为“僵尸”的可能性,于是改名曰“总结贴”,不提比赛细节,不提比赛流水账,权当是大学本科生涯中acm生活的点滴记录……(1)入门篇甲PS:以下内容…

    2022年7月23日
    15
  • 外汇交易平台怎么选,安全正规的外汇平台怎么选不了_比较靠谱的外汇平台有哪些

    外汇交易平台怎么选,安全正规的外汇平台怎么选不了_比较靠谱的外汇平台有哪些外汇交易平台怎么选,安全正规的外汇平台怎么选虽然这两年外汇市场一直火爆发展,但也催生了很多黑平台,给投资者在选择外汇交易平台时带来了很多风险和困难,对于投资者来说,进入外汇市场前期除了掌握必要的基础知识,最重要的就是选择一个安全可靠的平台。业内分析师提示广大投资者:在国内,外汇保证金交易目前暂时没有官方的金融监管机构和机制,炒外汇时一定要选择尽量国际外汇交易平台,而要判断一…

    2025年10月22日
    2
  • MySQL中tinytext、text、mediumtext和longtext详解「建议收藏」

    MySQL中tinytext、text、mediumtext和longtext详解「建议收藏」一、数字类型类型范围说明Blob(Binarylargeobjects)储存二进位资料,且有分大小写辨別Null与NotNull:Null为允许储存空值(Null)二、数值类型

    2022年7月2日
    36
  • Ubuntu下安装vscode_附近有安装etc的吗

    Ubuntu下安装vscode_附近有安装etc的吗目录一、安装VSCode1、VSCode下载2、安装VSCode二、配置C/C++环境1、配置g++环境1.1安装vim1.2安装g++2、安装汉化、C/C++插件3、建立工程4、更改lanuch.json文件5、更改task.json文件6、完美运行我的Ubuntu已经换源了,但是在浏览器中下载比较慢,可以在window中下载好直接拖到虚拟机中。如何在windows和虚拟机Ubuntu中拖拽文件参阅:两行代码实现Windows和…

    2022年9月18日
    4
  • IDEA激活成功教程后一直提示JetbrainsAgent 相关的弹框问题

    IDEA激活成功教程后一直提示JetbrainsAgent 相关的弹框问题激活成功教程后打开IDEA就弹框,关闭之后会自动打开浏览器,隔一会也会弹出来 也是一样的问题一开始是说把txt 和 jar 文件放一个路径下之类的方法,几经波折,发现没任何用处~最后各种搜索排查,在设置下更改配置就不弹啦~settings设置下搜索agent 取消”Instrumenting agent(requires debugger restart)”在 Reload classes after compilation:选择第一个 Always…

    2022年8月19日
    10
  • 终于,我感受到了IDEA的强大[通俗易懂]

    Java开发者千千万,开发者用的开发工具目前主流却只有2种:eclipse和IDEA,我入行以来一直用的eclipse,听过IDEA很好很强大,但是也只是处于听说的阶段,基本没用过,自然没怎么体会过。

    2022年2月16日
    43

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号