xpath爬取美女图片

xpath爬取美女图片尝试了一下用xpath爬取图集谷上面的美女图片,这次选择的是阿朱小姐姐,下面详细介绍如何爬取该网站中阿朱小姐姐的全部套图。网址如下:https://www.tujigu.com/t/437/

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

尝试了一下用xpath爬取图集谷上面的美女图片,这次选择的是阿朱小姐姐,下面详细介绍如何爬取该网站中阿朱小姐姐的全部套图。

网址:https://www.tujigu.com/t/437/

页面长这样:

xpath爬取美女图片

可以看到里面有很多套图,所以这个程序的思路就是先从首页爬取所有套图的地址,然后再从套图中获取每一张图片的地址,具体程序如下:

import requests
from lxml import etree
import os
# 创建一个文件夹用来存图
if not os.path.exists('./azhutaotuLibs'):
    os.mkdir('./azhutaotuLibs')
# UA伪装
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
url = 'https://www.tujigu.com/t/437/'
# 爬取首页信息
page_text = requests.get(url=url, headers=headers).text
# 从首页信息中解析出每个套图的地址
tree = etree.HTML(page_text)
taotu_list = tree.xpath('//div[@class="hezi"]/ul/li')
# 创建一个列表存储套图地址
all_taotu_adress = []
# 下面解析出的地址是每个套图首页的地址,但不是完整的地址
for li in taotu_list:
    taotu_adress = li.xpath('./a/@href')[0]
    all_taotu_adress.append(taotu_adress)
    # 每个套图第二页往后的地址无法从首页中解析,因此需要手动进行拼接
    taotu_fy = taotu_adress + '%d.html'
    # 根据经验每个套图最多不超过20页,因此range的范围写到21
    for pagenum in range(1, 21):
        taotu_ok = format(taotu_fy % pagenum)
        all_taotu_adress.append(taotu_ok)

# 获取每一张图片的地址
for key in all_taotu_adress:
    new_url = key

    img_page = requests.get(url=new_url, headers=headers).text

    new_tree = etree.HTML(img_page)
    detail_page = new_tree.xpath('//div[@class="content"]/img')
    for detail in detail_page:
        img_src = detail.xpath('./@src')[0]
        img_name = detail.xpath('./@alt')[0]+'.jpg'
        img_name = img_name.encode('iso-8859-1').decode('utf-8')
        img_data = requests.get(url=img_src, headers=headers).content
        img_path = './azhutaotuLibs/' + img_name
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(img_name, '下载成功')

因为阿朱小姐姐的套图一共就两页所以我懒得做分页了,爬取第二页直接换url就行

第二页地址:https://www.tujigu.com/t/437/index_1.html

全部爬取完了,东西还挺多的

xpath爬取美女图片

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/157839.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Linux环境的搭建「建议收藏」

    Linux环境的搭建「建议收藏」1、准备工作工具:(网上下载,也可以留言评论,我给你链接)VMware-workstation-full-12.5.7.20721.exe(虚拟机)ubuntu-16.04.5-desktop-amd64.iso(ubuntu镜像文件)winscp(图形用户界面)备注:也可以不用虚拟机,直接在window系统下安装,但是比较麻烦,要分出盘给linux系统,相当于电脑有双系统。我是把lin…

    2022年5月29日
    39
  • Redis 数据备份与恢复命令

    Redis 数据备份与恢复命令

    2021年9月10日
    79
  • 指针函数和函数指针「建议收藏」

    指针函数和函数指针「建议收藏」概述指针函数和函数指针是C语言里两个比较绕的概念。但是不仅面试题爱考,实际应用中也比较广泛。很多人因为搞不清这两个概念,干脆就避而远之,我刚接触C语言的时候对这两个概念也比较模糊,特别是当指针函数、函数指针、函数指针变量、函数指针数组放在一块的时候,能把强迫症的人活活逼疯。其实如果理解了这些概念的本质,是不需要死记硬背的,理解起来也比较容易。指针函数指针函数:顾名思义,它的本质是一个函数…

    2022年6月22日
    26
  • 需求规格说明书是给谁看的(需求规格说明书是谁写的)

    写在前面如果你明确清晰知道需求规格说明书是什么,则可以忽略此文章。如果你不清晰,建议还是阅读一下本文,不然也许早晚会碰钉子。转载请标明出处:http://blog.csdn.net/ouyida3/article/details/46045261本文出自:【ouyida3的博客】起因最近在做项目时,根据项目计划,在用户输出了《需求书》后,需要我在2天编写出《需求规格说明书》,但是就这个说明

    2022年4月11日
    93
  • 一问彻底理解dubbo主流程

    一问彻底理解dubbo主流程

    2021年8月4日
    47
  • 初学嵌入式开发用什么开发板_minipcie接口定义

    初学嵌入式开发用什么开发板_minipcie接口定义上海域格MINIPCIE开发板使用1、开发板概述开发(评估)板是为客户提供模块开发调试(评估)的平台。帮助客户对模块快速完成测试、开发、评估、验证产品特性以及功能演示等。客户可以在没有制作PCB的情况下,就能完成熟悉模块功能,并DEMO出相关程序,缩短开发周期。开发板上是标准MINIPCIE接口,请务必配合特定模块的硬件手册和AT手册使用。2、功能描述2.1平面图2.2实物图开发板基本接口调试概述:支持1路5V直流输入接口(使用5V电源供电,可将电

    2022年9月7日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号