堆糖网热门图片下载[通俗易懂]

堆糖网热门图片下载[通俗易懂]下载目标是堆糖网热门图片,打开网页并下拉发现图片是通过ajax加载的,按F12打开开发者工具选择nerwork并筛选xhr,继续下拉网页找到ajax请求的api,如下图所示然后就可以构造请求获取包含

大家好,又见面了,我是你们的朋友全栈君。

下载目标是堆糖网热门图片,打开网页并下拉发现图片是通过ajax加载的,按F12打开开发者工具选择nerwork并筛选xhr,继续下拉网页找到ajax请求的api,如下图所示

 

堆糖网热门图片下载[通俗易懂]

然后就可以构造请求获取包含图片url的json数据,对于网络请求等IO密集型任务,开启进程池可以提高下载速度

代码如下:

import requests
from requests import exceptions
import re
from multiprocessing import Pool
import os

def get_pic_info():
    url = 'https://www.duitang.com/napi/index/hot/?'
    for i in range(1000):
        params = {
            'include_fields': 'top_comments,is_root,source_link,item,buyable,root_id,status,like_count,sender,album',
            'limit': '24',
            'start': 24 * i,
        }
        response = requests.get(url, params=params)
        json_data = response.json()
        pic_list = json_data['data']['object_list']
        for pic_ in pic_list:
            image = {}
            pic_info = pic_['album']
            pic_url = pic_info['covers'][0]
            image['pic_name'] = re.sub(r'[\\/:*?"<>|\r\n。,.? ]+', '', pic_info['name']) + '.' + pic_url.split('.')[-1]
            image['pic_url'] = pic_url
            yield image

def download_pic(image):
    if not os.path.exists(f'./img/{image["pic_name"]}'):
        try:
            resp = requests.get(image['pic_url'])
            if resp.status_code == 200:
                    with open(f'./img/{image["pic_name"]}', 'wb') as f:
                        f.write(resp.content)
        except exceptions:
            return None
    else:
        print(image['pic_name'] + ' has already downloaded')

if __name__ == '__main__':
    if not os.path.exists('./img'):
        os.mkdir('./img')
    pool = Pool()
    pool.map(download_pic, get_pic_info())
    pool.close()
    pool.join()

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155277.html原文链接:https://javaforall.net

(0)
上一篇 2022年7月2日 下午1:46
下一篇 2022年7月2日 下午2:00


相关推荐

  • ICSharpCode.SharpZipLib.dll 使用方法[通俗易懂]

    ICSharpCode.SharpZipLib.dll 使用方法[通俗易懂]ICSharpCode.SharpZipLib.dll使用方法https://blog.csdn.net/luhn12345/article/details/48090887ICSharpCod

    2022年7月1日
    27
  • 设计类图

    设计类图

    2021年11月18日
    49
  • Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

    Hadoop切分纯文本时对某一行跨两个分片这种情况的处理Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

    2022年4月23日
    46
  • 机械振动论文带有simulink分析的_matlab振动仿真实例

    机械振动论文带有simulink分析的_matlab振动仿真实例1、内容简介1、汽车传动系统的力学模型的讨论2、SIMULINK介绍3、(激励源分析并建立相应的SIMULINK模块)包括发动机动力源模型,行驶工况等4、分析扭振特性5、提出改进手段并比较改进前后系统扭振响应340-可以交流、咨询、答疑2、内容说明汽车动力传动系统是一个具有多自由度的、连续的、有阻尼系统。传动系统的振动主要有横向振动、扭转振动、纵向振动。并且汽车传动系统的扭转振动是一个非常重要的振动形式。当汽车制动、起步、换档时,这些非稳定工况下汽车传动系由于受到非周期的冲击性干扰力而产生的振动。当汽车正

    2022年10月15日
    5
  • 调节pycharm字体大小

    调节pycharm字体大小1 打开 PyCharm 单击 File 2 然后 选择 Settings 会打开一个弹窗 3 接着选中弹窗中的 Editor 4 然后 选中 Font 5 改变 Size 值的大小 就可以调节字体大小了

    2026年3月27日
    3
  • ioctl函数详解_lseek函数

    ioctl函数详解_lseek函数ioctl 函数 本函数影响由fd 参数引用的一个打开的文件。 #include<unistd.h>int ioctl(intfd,intrequest,…/*void*arg*/);返回0 :成功   -1 :出错 第三个参数总是一个指针,但指针的类型依赖于request 参数。我们可以把和网络相关的请求划分为6&nbsp…

    2022年10月17日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号