python爬虫–异步

python爬虫–异步

python爬虫–异步

基本概念

目的:在爬虫中使用异步实现高性能的数据爬取操作。

异步爬虫的方式:

  • 多线程,多进程(不建议) :

    • 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。
    • 弊端:无法无限制的开启多线程或者多进程。
  • 线程池、 进程池(适当) :

    • 好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。
    • 弊端:池中线程或进程的数量是有上限。

线程池的基本使用

代码粘贴

# import time
# #单线程串行方式执行
# start_time = time.time()
# def get_page(str):
# print('正在下载:',str)
# time.sleep(2)
# print('下载完成:',str)
#
# name_list = ['haha','lala','duoduo','anan']
#
# for i in range(len(name_list)):
# get_page(name_list[i])
#
# end_time = time.time()
# print(end_time-start_time)

import time
from multiprocessing.dummy import Pool
#单线程串行方式执行
start_time = time.time()
def get_page(str):
    print('正在下载:',str)
    time.sleep(2)
    print('下载完成:',str)

name_list = ['haha','lala','duoduo','anan']

pool = Pool(4)
pool.map(get_page,name_list)

end_time = time.time()
print(end_time-start_time)

效果图

单线程串行方式
在这里插入图片描述

线程池
在这里插入图片描述

https://www.pearvideo.com/category_6

代码粘贴

import requests,re,random
from lxml import etree
from multiprocessing.dummy import Pool
urls = [] #视频地址和视频名称的字典
#获取视频假地址函数
def get_videoadd(detail_url,video_id):
    ajks_url = 'https://www.pearvideo.com/videoStatus.jsp'
    header = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
                      'Referer':detail_url
    }
    params = {
   
        'contId': video_id,
        'mrd': str(random.random())
    }
    video_json = requests.post(headers=header,url=ajks_url,params=params).json()
    return video_json['videoInfo']['videos']['srcUrl']
#获取视频数据和持久化存储
def get_videoData(dic):
    right_url = dic['url']
    print(dic['name'],'start!')
    video_data = requests.get(url=right_url,headers=headers).content
    with open(dic['name'],'wb') as fp:
        fp.write(video_data)
    print(dic['name'],'over!')


if __name__ == '__main__':
    url = 'https://www.梨video.com/category_6'
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }

    page_text = requests.get(url=url,headers=headers).text
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//*[@id="listvideoListUl"]/li')
    for li in li_list:
        detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]
        name = li.xpath('./div/a/div[2]/text()')[0]+'.mp4'
        #解析视频ID
        video_id = detail_url.split('/')[-1].split('_')[-1]
        false_url = get_videoadd(detail_url,video_id)
        temp = false_url.split('/')[-1].split('-')[0]
        #拼接出正确的url
        right_url = false_url.replace(temp,'cont-'+str(video_id))
        dic = {
   
            'name':name,
            'url':right_url
        }
        urls.append(dic)
    #使用线程池
    pool = Pool(4)
    pool.map(get_videoData,urls)
    #子线程结束后关闭
    pool.close()
    #主线程关闭
    pool.join()

效果图

在这里插入图片描述

思路

详情页发现ajks请求
在这里插入图片描述

但是,这是假地址
例:
假地址:

真地址

对比之后发现
在这里插入图片描述
圈中的数字中换为cont-video_id就为真地址

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/100100.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 做了三年Java,java注释的三种形式

    做了三年Java,java注释的三种形式前言很多同学想进大厂,特别是刚毕业的,以及工作年限短的,不要有任何侥幸心理,踏踏实实的把基础弄扎实了,这是你通往高薪之路的唯一正确姿势。首先从面试题做起~好了,不多说了,直接上正菜。拼多多一面首先自我介绍参加过哪些项目并发编程三要素?实现可见性的方法有哪些?多线程的价值?创建线程的三种方式的对比?画出线程的状态流转图常用的并发工具类有哪些?CyclicBarrier和CountDownLatch的区别CAS的问题:1、CAS容易造成ABA问题2、不能保证代码块的原子

    2022年7月8日
    23
  • 2268大约是多少_情态动词过去式

    2268大约是多少_情态动词过去式小 Q 在电子工艺实习课上学习焊接电路板。一块电路板由若干个元件组成,我们不妨称之为节点,并将其用数字 1,2,3… 进行标号。电路板的各个节点由若干不相交的导线相连接,且对于电路板的任何两个节点,都存在且仅存在一条通路(通路指连接两个元件的导线序列)。在电路板上存在一个特殊的元件称为“激发器”。当激发器工作后,产生一个激励电流,通过导线传向每一个它所连接的节点。而中间节点接收到激励电流后,得到信息,并将该激励电流传向与它连接并且尚未接收到激励电流的节点。最终,激励电流将到达一些“终止节点”——

    2022年8月9日
    9
  • Vim的终极配置方案,完美的写代码界面! ——.vimrc[通俗易懂]

    Vim的终极配置方案,完美的写代码界面! ——.vimrc[通俗易懂]先秀一下我的Vim界面语法补全我用的是YouCompleteMe,有目录树插件,taglist插件等。通过插件管理器Vundle来进行安装,具体方法自行百度。背景可以通过换张自己喜爱的壁纸,然后调终端的透明度,就可以对着自己喜爱的场景编程啦~有语法高亮,语句补全,显示行号,自动缩进等等功能。还有创建源文件自动添加头文件的功能,例如写一个.c程序自动添加…

    2022年6月14日
    42
  • c++私有变量和公有变量_没有与指定类型匹配的重载函数实例

    c++私有变量和公有变量_没有与指定类型匹配的重载函数实例AccessorandMutatorfunctions.函数形参与类私有成员重名时的解决方法

    2025年8月27日
    9
  • es6数组方法图解

    es6数组方法图解最近接触了一些web前端开发人员,发现还是很多人不适用es6提供的语义化api。下面分享下看到的图解es6数组方法。很形象的es6数组方法解释:

    2022年6月6日
    35
  • nmap命令扫描开放端口

    nmap命令扫描开放端口简单举例下,以下的场景,我使用了nmap命令场景1:使用树莓派但是没有显示器,这时候把树莓派接入局域网,通过使用nmap命令扫描局域网内的所有开放端口,分析扫描信息,从而得出树莓派的局域网ip,这时候就可以通过ip连上树莓派了场景2:nmap常被黑客用于分析服务器哪些端口开放,如果无聊我们也可以看下自己的服务器都开放了哪些端口安装nmap命令Mac上安装nmapbrewinst…

    2022年5月28日
    35

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号