福利来了!手把手教你Python爬取女神套图

福利来了!手把手教你Python爬取女神套图疲惫的生活里总要有些温柔梦想吧目标URL:http://www.win4000.com/meinvtag4_1.html爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图一、网页分析翻页查看URL变化规律:http://www.win4000.com/meinvtag4_1.htmlhttp://www.win4000.com/meinvtag4_2.htmlhttp://www.win4000.com/meinvtag4_3.htmlhttp:

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

疲惫的生活里总要有些温柔梦想吧

福利来了!手把手教你Python爬取女神套图

目标URL:http://www.win4000.com/meinvtag4_1.html

爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图

一、网页分析

福利来了!手把手教你Python爬取女神套图

翻页查看 URL 变化规律:

http://www.win4000.com/meinvtag4_1.html

http://www.win4000.com/meinvtag4_2.html

http://www.win4000.com/meinvtag4_3.html

http://www.win4000.com/meinvtag4_4.html

http://www.win4000.com/meinvtag4_5.html

页面里看到的每张图片点击进去有详情页,里面是套图

福利来了!手把手教你Python爬取女神套图

福利来了!手把手教你Python爬取女神套图

详情页里套图URL变化规律:

http://www.win4000.com/meinv216987_1.html

http://www.win4000.com/meinv216987_2.html

http://www.win4000.com/meinv216987_3.html

福利来了!手把手教你Python爬取女神套图

在网页源代码中也可以直接找到数据:

福利来了!手把手教你Python爬取女神套图

图片名称  下载链接

性感美女肌肤雪白撩人写真图片

http://pic1.win4000.com/pic/8/e0/24b989d57c.jpg

二、爬虫基本思路

福利来了!手把手教你Python爬取女神套图

1. 获取5页的套图的URL

def get_taotu_url():

 for i in range(1, 6):

        url = f'http://www.win4000.com/meinvtag4_{i}.html'

        headers = {

 'User-Agent': choice(user_agent)

        }

        # 发送请求  获取响应

        rep = requests.get(url, headers=headers)

        # print(rep.status_code)    状态码  200

        # print(rep.text)

        html = etree.HTML(rep.text)

        taotu_url = html.xpath('//div[@class="tab_tj"]/div/div/ul/li/a/@href')

        # 过滤掉无效的url

        taotu_url = [item for item in taotu_url if len(item) == 39]

        # 一个页面有24个图片

 print(taotu_url, len(taotu_url), sep='\n')

福利来了!手把手教你Python爬取女神套图

2. 进入套图详情页爬取图片

def get_img(url):

    headers = {

 'User-Agent': choice(user_agent)

    }

    # 发送请求  获取响应

    rep = requests.get(url, headers=headers)

    # 解析响应

    html = etree.HTML(rep.text)

    # 获取套图名称   最大页数

    name = html.xpath('//div[@class="ptitle"]/h1/text()')[0]

    os.mkdir(r'./女神套图/{}'.format(name))

    max_page = html.xpath('//div[@class="ptitle"]/em/text()')

    # 字符串替换  便于之后构造url请求

    url1 = url.replace('.html', '_{}.html')

 for i in range(1, int(max_page[0]) + 1):

        url2 = url1.format(i)

        sleep(randint(1, 3))

        reps = requests.get(url2, headers=headers)

        dom = etree.HTML(reps.text)

        src = dom.xpath('//div[@class="main-wrap"]/div[1]/a/img/@data-original')[0]

        file_name = name + f'第{i}张.jpg'

        img = requests.get(src, headers=headers).content

        with open(r'./女神套图/{}/{}'.format(name, file_name), 'wb') as f:

            f.write(img)

 print(f'成功下载图片:{file_name}')
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/193887.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 简述控制反转ioc_什么是IoC控制反转

    简述控制反转ioc_什么是IoC控制反转静态类的使用是一个有争议的话题,有人甚至提倡不要在类的名称上使用作用域限定符。关于静态特性争论的焦点在于一个被称为IoC控制反转的设计原则。IoC这个设计原则试图在面向对象编程中去掉所有相互依赖的现象。这个原则对于复杂的系统来说是很重要的。它使得对象具有更好的多态性和封装性。相互依赖的现象越少,就越容易单独测试某个组件。静态类与IoC之间的问题在于静态访问特性,这个特性从本质上来说,定义了两个类之…

    2022年6月28日
    18
  • Excel2JSON Excel转JSON Excel另存为JSON的技巧

    Excel2JSON Excel转JSON Excel另存为JSON的技巧不过欢迎大家转发到微博、微信、朋友圈~么么哒~JSON是码农们常用的数据格式,轻且方便,而直接手敲JSON却是比较麻烦和令人心情崩溃的(因为重复的东西很多),所以很多码农可能会和我一样,选择用Excel去输入数据,然后再想办法转换成JSON格式。小编今天推荐使用Excel直接另存为JSON的方法。该方法的特点是:除可以正常的直接按照表头作为key,内容作为value输出之外,还可以

    2022年6月14日
    43
  • NE问题分析

    一.crash(NE)问题1.找到堆栈信息一般堆栈在Androidlog或者tombstore里面,androidlog里面直接搜libsurfaceflinger或者surfaceflinger定位到log,SW-WDtombstore文件是系统在系统发生NE是抓到的堆栈信息,可能会包含多份文件,找的需要的即可2.解析堆栈backtrace信息,主要看调用栈,我们能从中得到发生问题的具体代码行号,比如:#01pc00000000000642fc/apex/com.android

    2022年4月9日
    72
  • 内存调试MEMWATCH

    内存调试MEMWATCH
    内存调试-MEMWATCH
     
    MEMWATCH由JohanLindh编写,是一个开放源代码C语言内存错误检测工具,您可以自己下载它(请参阅本文后面部分的参考资料)。只要在代码中添加一个头文件并在gcc语句中定义了MEMWATCH之后,您就可以跟踪程序中的内存泄漏和错误了。MEMWATCH支持ANSIC,它提供结果日志纪录,能检测双重释放(double-free)、错误释放(erroneousfree)、没有释放的内存(unfreedmemo

    2022年7月15日
    10
  • vue父组件操作子组件的方法_vue父组件获取子组件数据

    vue父组件操作子组件的方法_vue父组件获取子组件数据父组件和子组件我们经常分不清什么是父组件,什么是子组件。现在来简单总结下:我们将某段代码封装成一个组件,而这个组件又在另一个组件中引入,而引入该封装的组件的文件叫做父组件,被引入的组件叫做子组件。具

    2022年7月29日
    6
  • 大厂首发!java中public是什么意思[通俗易懂]

    大厂首发!java中public是什么意思[通俗易懂]一、前言Redis提供了5种数据类型:String(字符串)、Hash(哈希)、List(列表)、Set(集合)、Zset(有序集合),理解每种数据类型的特点对于redis的开发和运维非常重要。备注:按照分析顺序,本节应该说道有序集合对象了,但是考虑到有序集合对象的底层实现中使用到了跳跃表结构,避免在分析有序集合时造成突兀,所以本节先来看看redis中跳跃表结构的具体实现。Maven权威指南首先,本书适合所有Java程序员阅读。由于自动化构建、依赖管理等问题并不只存在于Java世界,因

    2022年7月7日
    28

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号