xpath爬取美女图片

xpath爬取美女图片尝试了一下用xpath爬取图集谷上面的美女图片,这次选择的是阿朱小姐姐,下面详细介绍如何爬取该网站中阿朱小姐姐的全部套图。网址如下:https://www.tujigu.com/t/437/

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

尝试了一下用xpath爬取图集谷上面的美女图片,这次选择的是阿朱小姐姐,下面详细介绍如何爬取该网站中阿朱小姐姐的全部套图。

网址:https://www.tujigu.com/t/437/

页面长这样:

xpath爬取美女图片

可以看到里面有很多套图,所以这个程序的思路就是先从首页爬取所有套图的地址,然后再从套图中获取每一张图片的地址,具体程序如下:

import requests
from lxml import etree
import os
# 创建一个文件夹用来存图
if not os.path.exists('./azhutaotuLibs'):
    os.mkdir('./azhutaotuLibs')
# UA伪装
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
url = 'https://www.tujigu.com/t/437/'
# 爬取首页信息
page_text = requests.get(url=url, headers=headers).text
# 从首页信息中解析出每个套图的地址
tree = etree.HTML(page_text)
taotu_list = tree.xpath('//div[@class="hezi"]/ul/li')
# 创建一个列表存储套图地址
all_taotu_adress = []
# 下面解析出的地址是每个套图首页的地址,但不是完整的地址
for li in taotu_list:
    taotu_adress = li.xpath('./a/@href')[0]
    all_taotu_adress.append(taotu_adress)
    # 每个套图第二页往后的地址无法从首页中解析,因此需要手动进行拼接
    taotu_fy = taotu_adress + '%d.html'
    # 根据经验每个套图最多不超过20页,因此range的范围写到21
    for pagenum in range(1, 21):
        taotu_ok = format(taotu_fy % pagenum)
        all_taotu_adress.append(taotu_ok)

# 获取每一张图片的地址
for key in all_taotu_adress:
    new_url = key

    img_page = requests.get(url=new_url, headers=headers).text

    new_tree = etree.HTML(img_page)
    detail_page = new_tree.xpath('//div[@class="content"]/img')
    for detail in detail_page:
        img_src = detail.xpath('./@src')[0]
        img_name = detail.xpath('./@alt')[0]+'.jpg'
        img_name = img_name.encode('iso-8859-1').decode('utf-8')
        img_data = requests.get(url=img_src, headers=headers).content
        img_path = './azhutaotuLibs/' + img_name
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(img_name, '下载成功')

因为阿朱小姐姐的套图一共就两页所以我懒得做分页了,爬取第二页直接换url就行

第二页地址:https://www.tujigu.com/t/437/index_1.html

全部爬取完了,东西还挺多的

xpath爬取美女图片

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/157839.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java图书馆新地址_基于SSM的社区图书馆管理系统的设计与实现[通俗易懂]

    java图书馆新地址_基于SSM的社区图书馆管理系统的设计与实现[通俗易懂]好程序设计擅长JAVA(SSM,SSH,SPRINGBOOT)、PYTHON(DJANGO/FLASK)、THINKPHP、C#、安卓、微信小程序、MYSQL、SQLSERVER等,欢迎咨询在学习社区图书馆管理系统的设计与实现项目的时候,方便日后能及时查阅,在本平台中记录一下社区图书馆管理系统的设计与实现的开发流程。在学习时候的选用了SSM(MYECLIPSE),这个框架…

    2022年7月9日
    81
  • H2 数据库入门和基本使用「建议收藏」

    H2 数据库入门和基本使用「建议收藏」1、下载安装包H2官网:http://h2database.com/html/main.html2、安装H2数据库选择安装目录->点击下一步->安装->完成

    2022年10月12日
    2
  • SLAM:gmapping

    SLAM:gmappingPackageSummaryReleasedDocumentedThispackagecontainsaROSwrapperforOpenSlam’sGmapping.Thegmappingpackageprovideslaser-basedSLAM(SimultaneousLocalizationandMapping),asaROSn…

    2022年6月22日
    33
  • Java项目框架搭建系列(Java学习路线)-博客提纲

    Java项目框架搭建系列(Java学习路线)-博客提纲

    2020年11月12日
    264
  • 编写自己的who命令

    编写自己的who命令
    今天自己照着书一步步敲了who命令的实现。老外写的有些书就是不错,一步步启发你告诉你怎么思考,怎么根据已有的线索查询联机帮助,怎么一步步最终解决问题。真不错。
    下面我就根据书上的思想,来回顾一下这将近2个小时的工作。

    1.who命令能

    2022年6月11日
    31
  • 大数据精准营销的网络营销策略研究_指南针的使用

    大数据精准营销的网络营销策略研究_指南针的使用互联网时代,也是一个数据大爆炸的时代,很多人通过网络营销,却忽略了一个重要的基础,那就是数据,而以各种各样数据为基础的互联网营销,需要的是一种大数据营销的思维,这种思维对于提升营销的质量和成功率都有极大的帮助。何为大数据营销,那么它又和网络营销的有何关联呢?其实大数据营销并不是一个复杂的概念,指的是通过所针对的目标的各种数据的变化和分析,来获得营销方向的指导,这种数据通过表格、文字等形式表现出来,…

    2022年9月26日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号