python 爬虫 美女_Python3爬取美女妹子图片

python 爬虫 美女_Python3爬取美女妹子图片1.效果图先看效果图,哈哈哈,是不是很有学习的欲望了,开干。爬图的数量根据你输入的页数确定,纯洁的我只是适当的爬了几张学习技术。效果图2.爬取妹子图片准备工作Python3.xPycharm等随意一款编辑器os库、requests库、pyquery库2.1安装库2.1.1cmd安装方式打开cmd控制台打开cam控制台在控制台分别输入以下代码:pipinstallrequestspip…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

1. 效果图

先看效果图,哈哈哈,是不是很有学习的欲望了,开干。

爬图的数量根据你输入的页数确定,纯洁的我只是适当的爬了几张学习技术。

python 爬虫 美女_Python3爬取美女妹子图片

效果图

2. 爬取妹子图片准备工作

Python3.x

Pycharm等随意一款编辑器

os库、requests库、pyquery库

2.1 安装库

2.1.1 cmd安装方式

打开cmd控制台

python 爬虫 美女_Python3爬取美女妹子图片

打开cam控制台

在控制台分别输入以下代码:

pip install requests

pip install pyquery

python 爬虫 美女_Python3爬取美女妹子图片

安装requests库

python 爬虫 美女_Python3爬取美女妹子图片

安装pyquery库

其中,os库为Python3内置库,不需要安装,至此,准备工作完成。

2.1.2 pycharm安装方式

打开pycharm>file>settings

python 爬虫 美女_Python3爬取美女妹子图片

打开设置

python 爬虫 美女_Python3爬取美女妹子图片

搜索库

python 爬虫 美女_Python3爬取美女妹子图片

安装库

将所需库安装即可,至此,准备工作完成。

3. 开始编程

3.1 主函数

python 爬虫 美女_Python3爬取美女妹子图片

目标

然后,观察规律:

第一页URL为http://www.umei.cc/p/gaoqing/cn

点下一页URL为http://www.umei.cc/p/gaoqing/cn/2.htm

再点下一页URL为http://www.umei.cc/p/gaoqing/cn/3.htm

python 爬虫 美女_Python3爬取美女妹子图片

观察规律

。。。。。。

然后再点击第一页发现网址变成了http://www.umei.cc/p/gaoqing/cn/1.htm

所以,我们就得到了屠龙技。代码如下:

# 控制代码运行过程,在文件作为脚本时才会被执行,而import到其他脚本中是不会被执行的

if __name__ == ‘__main__’:

z = 1

url = ‘http://www.umei.cc/p/gaoqing/cn/’ # 初始目标URL

for i in range(z, z+1): # z+1可以换成z+n (n=1,2,3……)

url1 = url+str(i)+’.htm’

print(url1)

get_url1(url1) # 调用get_url1函数获取图片

3.2 编写图片抓取函数get_url1

然后我们还有找规律,我们点开第一页第一套图

python 爬虫 美女_Python3爬取美女妹子图片

目标

python 爬虫 美女_Python3爬取美女妹子图片

链接

为了简便,我们就爬取每页各个套图里的第一张图片,当然也可以爬取更多的图。我们可以发现各个套图里的第一张图片URL根本没有规律,所以,我们这是就要借助pyquery网页解析库啦。

我用的是谷歌浏览器,打开开发者工具,根据图片找到套图里第一张图片的链接,可以多找几张,你会发现他们好像有规律,我们只要搞到红框框里的链接就好啦。

python 爬虫 美女_Python3爬取美女妹子图片

开发者工具

python 爬虫 美女_Python3爬取美女妹子图片

链接

python 爬虫 美女_Python3爬取美女妹子图片

链接

所以函数get_url1代码如下

def get_url1(url):

# 模拟浏览器,不用改,几乎固定

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) ‘

‘AppleWebKit/537.36 (KHTML, like Gecko)’

‘ Chrome/58.0.3029.110 Safari/537.36’

}

urllib3.disable_warnings() # 预警作用

html = requests.get(url, headers=headers, verify=False).text # 获得elements里的所有代码

doc = pq(html) # 解析代码

a = doc(‘.TypeList .TypeBigPics’)

for item in a.items():

b = item.attr(‘href’) # 获得herf里的所有代码

# print(b,’\n’,’\n’)

html2 = requests.get(b,headers = headers,verify = False).text

doc2 = pq(html2)

c = doc2(‘.ImageBody img’) # 获得ImageBody img里的代码

for item2 in c.items():

d = item2.attr(‘src’) # 获得src里的链接

print(d)

# 保存文件

root = “D://pics22223//” # 根目录

path=root+d.split(‘/’)[-1]

# 根目录加上url中以反斜杠分割的最后一部分,即可以以图片原来的名字存储在本地

try:

if not os.path.exists(root): # 判断当前根目录是否存在

os.mkdir(root) # 创建根目录

if not os.path.exists(path): # 判断文件是否存在

r=requests.get(d)

with open(path,’wb’)as f:

f.write(r.content)

f.close()

print(“文件保存成功”,’\n’,’\n’)

else:

print(“文件已存在”)

except:

print(“爬取失败”)

4. 完整代码

# -*- coding: utf-8 -*-

“””

Created on Sun Dec 30 15:38:25 2018

@author: 球球

“””

import requests

import os

from requests.packages import urllib3

from pyquery import PyQuery as pq

def get_url1(url):

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) ‘

‘AppleWebKit/537.36 (KHTML, like Gecko)’

‘ Chrome/58.0.3029.110 Safari/537.36’

}

urllib3.disable_warnings()

html = requests.get(url, headers=headers, verify=False).text

doc = pq(html)

a = doc(‘.TypeList .TypeBigPics’)

for item in a.items():

b = item.attr(‘href’)

# print(b,’\n’,’\n’)

html2 = requests.get(b,headers = headers,verify = False).text

doc2 = pq(html2)

c = doc2(‘.ImageBody img’)

for item2 in c.items():

d = item2.attr(‘src’)

print(d)

root = “D://pics22223//” # 根目录

path=root+d.split(‘/’)[-1]

# 根目录加上url中以反斜杠分割的最后一部分,即可以以图片原来的名字存储在本地

try:

if not os.path.exists(root): # 判断当前根目录是否存在

os.mkdir(root) # 创建根目录

if not os.path.exists(path): # 判断文件是否存在

r=requests.get(d)

with open(path,’wb’)as f:

f.write(r.content)

f.close()

print(“文件保存成功”,’\n’,’\n’)

else:

print(“文件已存在”)

except:

print(“爬取失败”)

if __name__ == ‘__main__’:

z = 1

url = ‘http://www.umei.cc/p/gaoqing/cn/’

for i in range(z, z+1):

url1 = url+str(i)+’.htm’

print(url1)

get_url1(url1)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/193832.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Python之queue模块

    queue模块实现了多生产者,多消费者的队列。当要求信息必须在多线程间安全交换,这个模块在同步线程编程时非常有用,Queue模块实现了所有要求的锁机制。内部实现是在抢占式线程加上临时锁,但是没有涉

    2021年12月30日
    42
  • 激活码 PhpStorm 2022.01-激活码分享2022.03.05

    (激活码 PhpStorm 2022.01)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/ide…

    2022年4月2日
    171
  • struts2 拦截器和过滤器理解

    struts2 拦截器和过滤器理解学习Struts2时,发现有过滤器和拦截器,他们貌似都是一样的功能,但是为什么会有2个不同的名称呢?肯定是有区别的,所以打算自己整理一下。          过滤器,是在javaweb中,你传入的request,response提前过滤掉一些信息,或者提前设置一些参数,然后再传入servlet或者struts的action进行业务逻辑,比如过滤掉非法url(不是login.do

    2022年10月6日
    2
  • Python scikit-learn (metrics): difference between r2_score and explained_variance_score?

    Python scikit-learn (metrics): difference between r2_score and explained_variance_score?

    2021年11月21日
    48
  • 【福利】JVM系列学习资源无套路赠送「建议收藏」

    这段时间一直整理并输出JVM相关的内容,每次发文后,后台也总有小伙伴留言说不知道如何学习JVM,看书太枯燥,很难坚持下去,并且看了很多时候用不上,也都忘记的差不多了,究竟要怎么学习JVM的知识呢?其实我也是去年才开始意识到自己到学一下JVM了,自己买了一些书然后在网上找了一些相关的视频资源! 通过先看一遍书,大致整个JVM相关的内容体系,然后在通过视频的学习快速的对核心的知识进行熟悉。最后在过一…

    2022年2月28日
    45
  • 基于zigbee的智能管理系统[通俗易懂]

    1.管理系统功能2.设备信息页面3.系统总体原理图4.说明上图已经说明了系统中需要使用的哪些技术,下面就挨着介绍下。统分为4部分分别是:1:客户端:2:服务器3:网关4:终端设备:先来介绍终端设备吧,终端设备主要指点灯,温度传感器,光照传感器,烟雾传感器灯设备,是使用了cc2530芯片,内部只带无线…

    2022年4月14日
    27

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号