Python爬虫_宅男福利?妹纸勿点__一蓑烟雨任平生「建议收藏」

Python爬虫_宅男福利?妹纸勿点__一蓑烟雨任平生「建议收藏」咳咳直接上代码#!/usr/bin/envpython#-*-coding:utf-8-*-#@Time:2020/12/1519:10#@Author:huni#@File:图库大全1000.py#@Software:PyCharmimportrequestsfromlxmlimportetreeimportosif__name__==’__main__’:headers={‘User-A

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

咳咳直接上代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2021/01/04 18:10
# @Author : 志伟
# @File : 图库大全1000.py
# @Software: PyCharm
import requests
from lxml import etree
import os

if __name__ == '__main__':
    headers = { 
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
    }
    m_path = './1000图库'
    if not os.path.exists(m_path):
        os.mkdir(m_path)
    for i in range(1, 2):
        url = f'https://www.1000tuku.com/guoneimeinv/list_5_{i}.html'
        resp = requests.get(url=url, headers=headers).text
        tree = etree.HTML(resp)
        href_list = tree.xpath('/html/body/div[4]/ul//@href')
        for href in href_list:
            resp1 = requests.get(url=href, headers=headers)
            # 处理中文乱码问题
            resp1_text = resp1.text.encode('ISO-8859-1').decode('GB18030')
            tree1 = etree.HTML(resp1_text)
            page_num = int(tree1.xpath('//*[@id="content"]/div[1]/div[2]/ul/li[1]/a/text()')[0][1:3])
            title = tree1.xpath('/html/head/title/text()')[0]
            title_path = m_path + f'/{title}'
            if not os.path.exists(title_path):
                os.mkdir(title_path)
            for j in range(1, page_num + 1):
                if j == 1:
                    every_herf = href
                else:
                    every_herf = href.replace('.html', f'_{j}.html')
                resp2 = requests.get(url=every_herf, headers=headers).text
                tree2 = etree.HTML(resp2)
                src_list = tree2.xpath('//*[@id="content"]/div[1]/div[1]//@src')
                for src in src_list:
                    jpg_data = requests.get(url=src, headers=headers).content
                    jpg_name = src.split('/')[-1]
                    jpg_path = title_path + f'/{jpg_name}'
                    with open(jpg_path, 'wb') as fp:
                        fp.write(jpg_data)
                        print(jpg_name, '下载完成')

咳咳,看看效果

在这里插入图片描述

放学啦,回家吃饭去吧

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/194038.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • adventureworksdw2012_示例数据库怎么导入

    adventureworksdw2012_示例数据库怎么导入1、http://sqlserversamples.codeplex.com/通过网站下载示例数据库,http://msftdbprodsamples.codeplex.com/releases/view/55926 为下载地址2、其中安装AdventureWorks2008R2(oltp)的时候,需要开启sqlserver的filestream功能。点击计算机-管理-右

    2025年11月1日
    4
  • 国产FPGA现状_fpga未来发展前景

    国产FPGA现状_fpga未来发展前景原文:https://www.sohu.com/a/229245757_132567来源:内容来自财通证券TMT组,谢谢。2018年上半年对于中国半导体行业而言是多事之秋,发生了几件让国人深入思考的大事。我作为IC产业的逃兵,最近也在思考很多的问题,包括资本市场、集成电路行业和研究所的一些不成熟的想法。2008年进入华中科技大学电子系,中科院半导体所毕业后进入联发科从事手机芯片开发(没错,就是卖的不怎么好的X30)。离开MTK之前有一段小插曲,招我进联发科的老大后来自己出来创业做安防芯片,当时喊

    2022年4月19日
    47
  • python分类模型_nlp模型评估指标

    python分类模型_nlp模型评估指标不知道你是否已经看完了我之前讲过的有关机器学习的文章,如果没看过也没关系,因为本篇文章介绍的内容适用于所有分类模型(包括神经网络),主要就是介绍分类模型的评估指标。另外,在前面我还会提一下数据不平衡的问题该如何处理。总之本篇文章实用性极强!…

    2022年10月6日
    6
  • row_number() OVER (PARTITION BY COL1 ORDER BY COL2)「建议收藏」

    row_number() OVER (PARTITION BY COL1 ORDER BY COL2)

    2022年1月23日
    53
  • jquery制作论坛或社交网站的每天打卡签到特效

    效果:http://hovertree.com/texiao/jquery/50/现在许多社区,购物等网站都设置签到功能,打开可以收获经验、虚拟币等,提高用户粘性,增加浏览量,是一个不错的功能。本文使

    2021年12月22日
    81
  • android之Widget开发详解实例一「建议收藏」

    Android Widget开发案例实现是本文要介绍的内容,主要是来了解并学习Android Widget开发应用,今天我们要写一下Android Widget的开发,由于快点凌晨,我就不说的太具体了,同志们就模仿吧!首先看一下效果图: 下面是Demo的详细步骤:一、新建一个Android工程命名为:WidgetDemo.二、准备素材,一个是Widget的图标,一个是W

    2022年3月10日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号