福利来了!手把手教你Python爬取女神套图

福利来了!手把手教你Python爬取女神套图疲惫的生活里总要有些温柔梦想吧目标URL:http://www.win4000.com/meinvtag4_1.html爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图一、网页分析翻页查看URL变化规律:http://www.win4000.com/meinvtag4_1.htmlhttp://www.win4000.com/meinvtag4_2.htmlhttp://www.win4000.com/meinvtag4_3.htmlhttp:

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

疲惫的生活里总要有些温柔梦想吧

福利来了!手把手教你Python爬取女神套图

目标URL:http://www.win4000.com/meinvtag4_1.html

爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图

一、网页分析

福利来了!手把手教你Python爬取女神套图

翻页查看 URL 变化规律:

http://www.win4000.com/meinvtag4_1.html

http://www.win4000.com/meinvtag4_2.html

http://www.win4000.com/meinvtag4_3.html

http://www.win4000.com/meinvtag4_4.html

http://www.win4000.com/meinvtag4_5.html

页面里看到的每张图片点击进去有详情页,里面是套图

福利来了!手把手教你Python爬取女神套图

福利来了!手把手教你Python爬取女神套图

详情页里套图URL变化规律:

http://www.win4000.com/meinv216987_1.html

http://www.win4000.com/meinv216987_2.html

http://www.win4000.com/meinv216987_3.html

福利来了!手把手教你Python爬取女神套图

在网页源代码中也可以直接找到数据:

福利来了!手把手教你Python爬取女神套图

图片名称  下载链接

性感美女肌肤雪白撩人写真图片

http://pic1.win4000.com/pic/8/e0/24b989d57c.jpg

二、爬虫基本思路

福利来了!手把手教你Python爬取女神套图

1. 获取5页的套图的URL

def get_taotu_url():

 for i in range(1, 6):

        url = f'http://www.win4000.com/meinvtag4_{i}.html'

        headers = {

 'User-Agent': choice(user_agent)

        }

        # 发送请求  获取响应

        rep = requests.get(url, headers=headers)

        # print(rep.status_code)    状态码  200

        # print(rep.text)

        html = etree.HTML(rep.text)

        taotu_url = html.xpath('//div[@class="tab_tj"]/div/div/ul/li/a/@href')

        # 过滤掉无效的url

        taotu_url = [item for item in taotu_url if len(item) == 39]

        # 一个页面有24个图片

 print(taotu_url, len(taotu_url), sep='\n')

福利来了!手把手教你Python爬取女神套图

2. 进入套图详情页爬取图片

def get_img(url):

    headers = {

 'User-Agent': choice(user_agent)

    }

    # 发送请求  获取响应

    rep = requests.get(url, headers=headers)

    # 解析响应

    html = etree.HTML(rep.text)

    # 获取套图名称   最大页数

    name = html.xpath('//div[@class="ptitle"]/h1/text()')[0]

    os.mkdir(r'./女神套图/{}'.format(name))

    max_page = html.xpath('//div[@class="ptitle"]/em/text()')

    # 字符串替换  便于之后构造url请求

    url1 = url.replace('.html', '_{}.html')

 for i in range(1, int(max_page[0]) + 1):

        url2 = url1.format(i)

        sleep(randint(1, 3))

        reps = requests.get(url2, headers=headers)

        dom = etree.HTML(reps.text)

        src = dom.xpath('//div[@class="main-wrap"]/div[1]/a/img/@data-original')[0]

        file_name = name + f'第{i}张.jpg'

        img = requests.get(src, headers=headers).content

        with open(r'./女神套图/{}/{}'.format(name, file_name), 'wb') as f:

            f.write(img)

 print(f'成功下载图片:{file_name}')
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/193887.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • X-Windows桌面

    X-Windows桌面

    2021年10月15日
    40
  • python层次聚类分析_SPSS聚类分析:系统聚类分析[通俗易懂]

    python层次聚类分析_SPSS聚类分析:系统聚类分析[通俗易懂]一、概念:(分析-分类-系统聚类)系统聚类法常称为层次聚类法、分层聚类法,也是聚类分析中使用广泛的一种方法。它有两种类型,一是对研究对象本身进行分类,称为Q型聚类;另一是对研究对象的观察指标进行分类,称为R型聚类。同时根据聚类过程不同,又分为分解法和凝聚法。二、聚类方法(分析-分类-系统聚类-方法)1、聚类方法。可用的选项有组间联接、组内联接、最近邻元素、最远邻元素、质心聚类法、中位数聚类法和Wa…

    2022年10月17日
    1
  • pycharm安装python3.6_python3.8怎么安装

    pycharm安装python3.6_python3.8怎么安装1.软件准备Python开发环境3.6以上PyCharm编辑器 Python开发环境3.6以上 浏览器谷歌最新版 浏览器驱动与浏览器版本匹配*资源包获取链接:https://pan.baidu.com/s/10n7MfZXtRNWnXJghT9xq2g提取码:w8mm 安装PyCharm 双击下载好的安装包“pycharm-community-2020.2.3.exe”,一路“Next”即可完成安装,可以修改默认安装路径。 安装P…

    2022年8月26日
    5
  • 烽火hg6543c1光猫超级密码_电信光猫hs8145c5超级密码

    烽火hg6543c1光猫超级密码_电信光猫hs8145c5超级密码坐标杭州,宽带移机。师傅给我换了个战未来的,支持万兆的光猫…以前我是依据型号网上搜索搞到超级管理员用户就行桥接的,给我换了这个新光猫后,自己死活折腾不出来…以前大家都习惯用超级管理员进入光猫,改桥接模式利用光猫的安全漏洞花式获取超级管理员密码,什么查看网络报文、telnet啊等等手段博主要告诉大家的是,这些歪门邪道未来都是不可取的,光猫更新总归是要修复这些漏洞的。而且光猫超级管理员这玩意,电信的客服、维修师傅都不用,他们都不知道有这玩意,我们折腾有啥意义呢。大家要知道:电信是允许大家改用桥接模式的。直接打1

    2022年10月8日
    2
  • 常量和常量表达式_里伯德常量

    常量和常量表达式_里伯德常量常量和常量表达式 long型常量以L或者l结尾,有时候,如果一个整数太大无法用int表达,也被当做long型; 无符号常量以U或者u结尾,unsignedlong型常量以UL或者ul结尾; 没有后缀的浮点数常量为double型; 有后缀F或者f的浮点数常量是float型,后缀L或者l表示longdouble型常量; 八进制和十六进制的常量也可以使用L和U后缀;

    2022年9月29日
    2
  • java读取pfx格式的证书-并获取公钥私钥

    java读取pfx格式的证书-并获取公钥私钥packagecom.hgh.javase.security;importjava.io.FileInputStream;importjava.security.KeyStore;importjava.security.PrivateKey;importjava.security.PublicKey;importjava.security.cert.Certificate;im

    2022年5月1日
    155

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号