Python爬虫_宅男福利?妹纸勿点__一蓑烟雨任平生「建议收藏」

Python爬虫_宅男福利?妹纸勿点__一蓑烟雨任平生「建议收藏」咳咳直接上代码#!/usr/bin/envpython#-*-coding:utf-8-*-#@Time:2020/12/1519:10#@Author:huni#@File:图库大全1000.py#@Software:PyCharmimportrequestsfromlxmlimportetreeimportosif__name__==’__main__’:headers={‘User-A

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

咳咳直接上代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2021/01/04 18:10
# @Author : 志伟
# @File : 图库大全1000.py
# @Software: PyCharm
import requests
from lxml import etree
import os

if __name__ == '__main__':
    headers = { 
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
    }
    m_path = './1000图库'
    if not os.path.exists(m_path):
        os.mkdir(m_path)
    for i in range(1, 2):
        url = f'https://www.1000tuku.com/guoneimeinv/list_5_{i}.html'
        resp = requests.get(url=url, headers=headers).text
        tree = etree.HTML(resp)
        href_list = tree.xpath('/html/body/div[4]/ul//@href')
        for href in href_list:
            resp1 = requests.get(url=href, headers=headers)
            # 处理中文乱码问题
            resp1_text = resp1.text.encode('ISO-8859-1').decode('GB18030')
            tree1 = etree.HTML(resp1_text)
            page_num = int(tree1.xpath('//*[@id="content"]/div[1]/div[2]/ul/li[1]/a/text()')[0][1:3])
            title = tree1.xpath('/html/head/title/text()')[0]
            title_path = m_path + f'/{title}'
            if not os.path.exists(title_path):
                os.mkdir(title_path)
            for j in range(1, page_num + 1):
                if j == 1:
                    every_herf = href
                else:
                    every_herf = href.replace('.html', f'_{j}.html')
                resp2 = requests.get(url=every_herf, headers=headers).text
                tree2 = etree.HTML(resp2)
                src_list = tree2.xpath('//*[@id="content"]/div[1]/div[1]//@src')
                for src in src_list:
                    jpg_data = requests.get(url=src, headers=headers).content
                    jpg_name = src.split('/')[-1]
                    jpg_path = title_path + f'/{jpg_name}'
                    with open(jpg_path, 'wb') as fp:
                        fp.write(jpg_data)
                        print(jpg_name, '下载完成')

咳咳,看看效果

在这里插入图片描述

放学啦,回家吃饭去吧

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/194038.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Python之operator库

    operator库常用方法operator.itemgetter返回一个可调用对象,获取项目使用的操作数的__getitem__()方法操作数。如果指定了多个项,则返回一个查找值元组。>&

    2021年12月19日
    68
  • FileInputStream路径「建议收藏」

    FileInputStream路径「建议收藏」最近在整理之前的项目时遇到的一个问题,关于FileInputStream的路径无法确定的一个小问题。在网上找了一堆方法,自己也尝试了之后发现,用下面的代码查看一下当前的路径再确定String中应该写什么路径。System.out.println(newFile(“.”).getAbsolutePath());…

    2022年5月9日
    162
  • C 语言漏洞最严重,PHP 最易受攻击,程序员该怎么写代码?「建议收藏」

    C 语言漏洞最严重,PHP 最易受攻击,程序员该怎么写代码?

    2022年2月14日
    39
  • 自然常数e的由来(简单通俗易于理解自然常数e)「建议收藏」

    自然常数e的由来(简单通俗易于理解自然常数e)「建议收藏」自然常数e的由来 (该文章用于自学和分享) 开篇先讲两个例子苏格拉底的麦穗柏拉图问苏格拉底,什么是爱情。苏格拉底说,这样吧,你去麦田里,不要回头,一直往前走,把你遇到的、最大的那棵麦穗摘下来、拿给我。后面的事,大家都知道了:柏拉图瞻前顾后,总觉得后面还有更好的,结果两手空空、一棵麦穗也没有得到。 除此之外,梅里尔·弗勒德(MerrillFlood)【提出过博弈论中…

    2025年7月21日
    3
  • 树莓派3B安装ffmpeg[通俗易懂]

    树莓派3B安装ffmpeg[通俗易懂]树莓派3B安装ffmpeg树莓派型号:3b操作系统:ubuntu-mate-16.04.2-desktop-armhf-raspberry-pi.img如果只使用基础功能可以参考https://blog.csdn.net/qq_28877125/article/details/70186287用这里边的配置文件,编译起来的确比较快,十分钟内编译完成,但是,这个只包含了基础功能,我使…

    2022年6月25日
    28
  • 一个暑假额。。有一点进步。。要学的还有很多

    一个暑假都在安卓上了,本来眼高手低的觉得能学个差不多,没想到只学了个皮毛而已。到现在基本上了解了安卓的工作原理和一些常用api的调用,不过遇到瓶颈了,终于知道很多人劝的那句话,java基础很重要。现在体会到了,刚开始还能根据c++的理解大体写出小程序的细节,但是到后来,随着程序的增加,却是意识到需要系统的学习一下java,所以,前几天开始看李刚老师的疯狂java讲义,刚才因为出现了问题,一打开

    2022年3月8日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号