【python】秀人集-写真集-爬虫-1.0「建议收藏」

【python】秀人集-写真集-爬虫-1.0「建议收藏」秀人集写真爬取

大家好,又见面了,我是你们的朋友全栈君。

最近没有怎么关注图集谷网站,结果今天打开看看,结果官方直接关服了,只留下需要付费的图集岛网址笑哭

看到有人在我的文章下留言,这表示我的写作方向是有一定的受众的,这我就放心了。[吾心甚慰]

好的,长话短说。因为图集谷没了,我就找了一个新的网站给大家学习——秀人集。

秀人集网址:www.xiurenb.com

下面是相关的代码,供大家参考学习[坏笑]

# 导入库
import time, os, requests
from lxml import etree

# 定义请求头
headers = {
	'User-Agent':'Chrome 10.1'
	}

# 格式化列表
img_list = []
url_list = []

# 传入数据
Page_Num = input('Enter the Organization and Page_Num:')
# 以url = 'https://www.xiurenb.com/MyGirl/6149'为例,这里需要传入的数据就是'MyGirl/6149'

# 获取写真集每一页的网址并写入列表
url = 'https://www.xiurenb.com/' + str(Page_Num)
Num_res = requests.get(url=url + '.html', headers=headers)
Num_tree = etree.HTML(Num_res.text)
Num = len(Num_tree.xpath('/html/body/div[3]/div/div/div[4]/div/div/a'))
url_list.append(url)
for i in range(1, int(Num) - 2):
	url_other = url + '_' + str(i)
	url_list.append(url_other)

# 获取每张图片的url并写入列表
for url in url_list:
	res = requests.get(url=url + '.html',headers=headers)
	tree = etree.HTML(res.text)
	img_src = tree.xpath('/html/body/div[3]/div/div/div[5]/p/img/@src')
	for img in img_src:
		img_list.append(img)
	time.sleep(0.5)

# 创建保存图片的目录
res = requests.get(url=url_list[0] + '.html',headers=headers)
res.encoding = 'utf-8'
tree = etree.HTML(res.text)
path_name = tree.xpath('/html/body/div[3]/div/div/div[1]/h1//text()')[0][11:]
print(path_name)
the_path_name = 'C:/Users/liu/Pictures/' + path_name
if not os.path.exists(the_path_name):
	os.mkdir(the_path_name)

# 获取图片并保存到指定目录下
num = 0
for j in img_list:
	img_url = 'https://www.xiurenb.com' + j
	img_data = requests.get(url=img_url, headers=headers).content
	img_name = img_url.split('/')[-1]
	finish_num = str(num) + '/' + str(len(img_list))
	with open('C:/Users/liu/Pictures/' + path_name + '/' + img_name, 'wb') as f:
		print(f'Downloading the img:{img_name}     {finish_num}')
		f.write(img_data)
		f.close()
	num += 1
	time.sleep(0.5)

# 运行成功提示
print('Finished!')

这只是这个网站的初版代码,还有一些需要改进的地方。比如,需要自己观察url进行传入数据;一次只能获取单个写真集的全部图片…

在之后的时间,我会不定时地对其进行优化改进,大家可以关注一下。

大家的评论与点赞收藏是我写作的动力,希望大家多多支持。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/158683.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 【图解算法】模板+变式——带你彻底搞懂字典树(Trie树)

    【图解算法】模板+变式——带你彻底搞懂字典树(Trie树) 啥是字典树?【字典树】(TrieTree)是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串)。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。                                                    ——百度·百科so?所以到底什么是字典树? 还好,它还有其他的名字,更能表述出它的实质:前缀树、单词查找树&nbs

    2025年9月28日
    3
  • 【Dart学习】–之Runes与Symbols相关方法总结「建议收藏」

    【Dart学习】–之Runes与Symbols相关方法总结「建议收藏」一,Runes在Dart中,Runes代表字符串的UTF-32字符集,另一种StringsUnicode为每一个字符、标点符号、表情符号等都定义了一个唯一的数值由于Dart字符串是UTF-1

    2022年8月6日
    7
  • 交叉线和直通线的区别和用途[通俗易懂]

    交叉线和直通线的区别和用途[通俗易懂]一般设备分为DCE(数据通信设备)和DTE(数据终端设备)当DCE 和DCE以及DTE和DTE之间相连,也就是同种类型的设备相连时间,我们用交叉线。当DCE和DTE之间相连接,也就是不同种类型的设备相连时间,我们一般使用直通线即不同类型的设备需要更简单的连接,不宜是传输复杂化常见的DCE设备(交换机,集线器,CSU/DSU)常见的DTE设备(终端计算机,路由器)

    2022年6月19日
    47
  • uniqueidentifier转换_unique函数哪个版本有

    uniqueidentifier转换_unique函数哪个版本有uniqueidentifier中文含义“唯一的标识符”。uniqueidentifier数据类型是16个字节的二进制值,应具有唯一性,必须与NEWID()函数配合使用。uniqueidentifier数据类型与identity自增不同,不会为插入的新行自动生成新的ID,新值由NEWID()函数指定。NEWID()函数值会生成全球唯一的标识,标识由网卡号和CPU时钟组成,如:6

    2025年10月1日
    7
  • mysql错误代码1142_mysqldump命令

    mysql错误代码1142_mysqldump命令I’mhavingtroubleswithacertainqueryononeofmyservers.OnallotherplacesI’vetestedititworkscompletelyfinebutontheserveriwanttouseititisn’tworking.It’saboutthefollowing…

    2022年10月1日
    2
  • 产品分享:Qt视频播放器(不依赖系统编解码),当前版本v1.1.2

    产品分享:Qt视频播放器(不依赖系统编解码),当前版本v1.1.2欢迎技术交流和帮助,提供IT相关服务,索要源码请联系博主QQ:21497936,若该文为原创文章,未经允许不得转载原博主博客地址:https://blog.csdn.net/qq21497936本文章博客地址:https://blog.csdn.net/qq21497936/article/details/100180789目录前言Qt自带播放器框架存在问题Demov1.1…

    2022年5月8日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号