python 爬取图集谷妹子图片，按自己喜好抓取一页图片，有兴趣二次开发抓全站

全栈程序员-站长 • 2022年7月1日上午11:36 • 未分类 • 阅读 26

python 爬取图集谷妹子图片，按自己喜好抓取一页图片，有兴趣二次开发抓全站#-*-coding:utf-8-*-importrequests,time,osfromlxmlimportetreefromurllibimportrequest

大家好，又见面了，我是你们的朋友全栈君。

# -*- coding: utf-8 -*-

import requests, time, os
from lxml import etree
from urllib import request

name_url = {}  # 创建一个字典


def sort():
    req = requests.get('https://www.tujigu.com/')  # 首页
    req.encoding = 'utf-8'  # 中文出现乱码，调整编码
    req_xp = etree.HTML(req.text)  # 装换为xp，text是为了变成字符串形式，不然会报错
    text_list = req_xp.xpath('//*[@class="menu"]/li/a/text()|//*[@id="tag_ul"]/li/a/text()')  # 读取分类名
    href_list = req_xp.xpath('//*[@class="menu"]/li/a/@href|//*[@id="tag_ul"]/li/a/@href')  # 获取网址
    for href, text in zip(href_list, text_list):
        name_url[text] = href  # 已分类名做为key，网址作为值
    return text_list  # 返回分类名列表，好为后面打印分类名


def dow(url, name):
    if not os.path.exists("图集谷"):  # 检查并创建文件夹，强迫症~~~
        os.mkdir('图集谷')
    if not os.path.exists("图集谷/{}".format(name)):  # 同上，创建分类
        os.mkdir('图集谷/{}'.format(name))
    atlas = requests.get(url)  # get你选择的网址
    atlas.encoding = 'utf-8'  # 同上，乱码问题
    atlas_xp = etree.HTML(atlas.text)
    text_list = atlas_xp.xpath('//*[@class="biaoti"]/a/text()')  # 获取图集名
    href_list = atlas_xp.xpath('//*[@class="biaoti"]/a/@href')
    for text, href in zip(text_list, href_list):
        req = requests.get(href)
        req.encoding = 'utf-8'
        req_xp1 = etree.HTML(req.text)
        src_list = req_xp1.xpath('//*[@class="content"]/img/@src')
        num = 1  # 创建图片名，美观
        # 下面是为了删除一些图集中包含了文件夹不能创建的符号
        text = text.replace('\n', '').replace('/', '').replace('\\', '').replace(':', '').replace('*', '').replace('"',
                                                                                                                   '').replace(
            '<', '').replace('>', '').replace('|', '').replace('?', '')
        if not os.path.exists("图集谷/{}/{}".format(name, text)):  # 检测此图集是否下载过
            os.mkdir("图集谷/{}/{}".format(name, text))
            for src in src_list:
                request.urlretrieve(src, "图集谷/{}/{}/{}.jpg".format(name, text, num))  # 保存图片
                num += 1
            print('{}-------------成功下载'.format(text))
        else:
            print('{}--------------内容已下载'.format(text))


def get():
    while 1:
        text_list = sort()  # 从首页获取分类信息和url
        i = 1  # 序号
        for text in text_list[2:-1]:  # 从2到-1是为了去除没用的分类
            print('%02d.{}'.format(text) % i)  # 打印分类信息
            i += 1
        opt = input('输入您要爬取的内容（首页为默认）>>>>> ')
        if not opt.isdigit():  # 判断输入内容
            print('傻X输入中文懂么')
            time.sleep(3)
            continue
        opt = int(opt)
        if not 0 < opt < len(text_list) - 3:  # 判断输入内容
            print('输入范围错误')
            time.sleep(3)
            continue
        opt += 1  # 以为删除了首页，所以+1才能正确选择分类
        url = name_url[text_list[opt]]  # 获取你选择的地址
        name = text_list[opt]  # 分类的名字，好创建一个文件夹放入
        print('{}====开始爬取'.format(name))
        dow(url, name)  # 开始运行下载程序
        input('爬取完成，按下回车重新开始')


if __name__ == '__main__':
    get()  # 开始运行主程序

安装好库，选择自己喜好，就可以了。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/154733.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

惠普笔记本拆机详细步骤

上一篇 2022年7月1日上午11:36

什么是Load Average?

下一篇 2022年7月1日上午11:36

idea

vmware15最新虚拟机激活码【在线注册码/序列号/破解码】

vmware15最新虚拟机激活码【在线注册码/序列号/破解码】，https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧！

全栈程序员-站长
2022年3月18日
130
分治策略结合递归思想求最大子序列和

分治策略结合递归思想求最大子序列和

全栈程序员-站长
2021年12月6日
38
主流量化交易的几种策略模型

主流量化交易的几种策略模型量化策略可以简单分为三类，分别是Alpha策略、CTA策略以及高频交易策略1.Alpha策略Alpha策略包含不同类别：按照研究内容来分，可分为基本面Alpha（或者叫财务Alpha）和量价Alpha。业内普遍不会将这两种Alpha完全隔离开。但是不同团队会按照其能力、擅长方向以及信仰，在做因子上有所偏向。有的团队喜欢用数据挖掘的方式做量价因子，而有的团队喜欢从基本面财务逻辑的角度出发，精细地筛选财务因子。。按照是否对冲可以分为两类。全对冲的叫做Alpha策略，不对冲的在市面上常被称作指

全栈程序员-站长
2022年6月26日
42
安卓设备修改屏幕像素密度以及查看屏幕分辨率

安卓设备修改屏幕像素密度以及查看屏幕分辨率使用adb修改屏幕像素密度(此命令针对全志开发板子)adbshellamdisplay-density120{以下命令针对高通的开发板子}获取Android设备屏幕分辨率：adbshellwmsize获取android设备屏幕密度：adbshellwmdensity修改屏幕像素密度adbshellwmresize1920*1080adbshell…

全栈程序员-站长
2022年6月5日
146
asp.net中回发或回调参数无效。在配置中使用 <pages enableEventValidation=”… 问题解决[通俗易懂]

asp.net中回发或回调参数无效。在配置中使用 <pages enableEventValidation=”… 问题解决[通俗易懂]回发或回调参数无效。在配置中使用

全栈程序员-站长
2022年7月24日
21
Linphone-Android源码学习（一）

Linphone-Android源码学习（一）

全栈程序员-站长
2022年5月26日
38

发表回复

关注全栈程序员社区公众号