图集谷-写真集-爬虫-2.0

图集谷-写真集-爬虫-2.0图集谷写真集python爬虫

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

        经过,对上一版爬虫的仔细研究,我换了一个编写思路,写了这个2.0版本。

        依然废话不多说,直接上代码。

# 导入库
import os, time, requests

# 请求头
headers = {
  'User-Agent': 'Chrome 10.0'
}

# 图片数据列表
pictures = []

# 获取图片数据
def get_pic(url, nums):
    for num in range(0, int(nums)):
        url_all = str(url) + f'{str(num)}.jpg'
        res = requests.get(url=url_all, headers=headers)
        pic_content = res.content
        pictures.append(pic_content)
        time.sleep(0.5)

# 创建目的文件夹
def get_path(path_name):
    if not os.path.exists(f'C:/Users/liu/Desktop/图集/{path_name}'):
        os.mkdir(f'C:/Users/liu/Desktop/图集/{path_name}')
    else:
        pass

# 保存图片数据
def save_data():
    for pic,i in zip(pictures, range(int(Num))):
        picture = open(f'C:/Users/liu/Desktop/图集/{str(Page_Num)}/{str(i)}.jpg', 'wb')
        picture.write(pic)
        picture.close()

# 主程序入口
if __name__ == '__main__':
    Page_Num = input('Enter the Page_name:')    # Page_Num指下文url所代指的数字
    Num = int(input('Enter the Num:')) + 1    # Num为写真集的图片数
    url = f'https://tjg.gzhuibei.com/a/1/{str(Page_Num)}/'    # 
    get_path(path_name=Page_Num)
    get_pic(url=url, nums=Num)
    save_data()
    print('Finish!')

        在编写的第一版爬虫的过程中,我发现可以通过算从而确定每张图片的url。因此,在第二版中,我省去了对lxml库的运用。

        通过运算得到所有图片的url,相对于第一版更简便,也不用更多地访问,节省了下载时间。

        在这个图集谷爬虫-2.0完成后,如果能够的话,我会继续对图集谷爬虫的不断优化。

        感谢大家的支持!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/157799.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 鸿蒙OS架构及关键技术整理

    鸿蒙OS架构及关键技术整理鸿蒙OS架构及关键技术整理一. 鸿蒙OS整体介绍二. 子系统架构三. 关键技术1.分布式架构首次用于终端OS,实现跨终端无缝协同体验2.确定时延引擎和高性能IPC技术实现系统天生流畅3.基于微内核架构重塑终端设备可信安全4.通过统一IDE支撑一次开发,多端部署,实现跨终端生态共享四. 参考资料一. 鸿蒙OS整体介绍HarmonyOS简介原作者:xiangzhihong8前两天,华为发布了HarmonyOS2.0,俺也赶个时髦,给大家简单介绍下HarmonyOS。定义首先,我们来看一下官

    2022年7月12日
    9
  • pycharm安装模块方法

    pycharm安装模块方法一.打开pycharm二.点开file三.点击Settings,点击ProjectInterpreter,选择右上角+四.进入后,在搜索框搜索需要安装的模块,选中安装击ProjectInterpreter转载于:https://www.cnblogs.com/jinxf/p/9160645.html…

    2022年8月28日
    0
  • 面试题JAVA_Java应届生面试

    面试题JAVA_Java应届生面试刚出炉的一套面试题(JAVA岗)

    2022年4月21日
    71
  • webdriver.Firefox_web driver

    webdriver.Firefox_web driver1、下载geckodriver(是Firefox的官方webdriver)地址:https://github.com/mozilla/geckodriver/releases2、下载需要的driver后,解压,将geckodriver.exe放置在与python3.exe相同的路径下。demo调试一下:火狐浏览器可以正常执行脚本,pass!…

    2022年9月19日
    0
  • centos安装python3详细教程[通俗易懂]

    centos安装python3详细教程[通俗易懂]centos7自带版本是python2.7如果要用的3.0以上的版本需要手动安装1、先查看系统python的位置在哪儿whereispythonpython2.7默认安装是在/usr/bin目录中,切换到/usr/bin/cd/usr/bin/llpython*从下面的图中我们可以看到,python指向的是python2,python2指向的是python2.7,因此我们可以装个python3,然后将python指向python3,然后python2指向python2.7,那么

    2022年9月2日
    2
  • 连“霍金”都想学习的“人工智能”—【自己动手写神经网络】小白入门连载開始了(1)

    连“霍金”都想学习的“人工智能”—【自己动手写神经网络】小白入门连载開始了(1)

    2022年2月5日
    38

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号