校花网爬取校花照片

校花网爬取校花照片"""今天我们开始尝试,第一次学习爬虫的第一个案例,去校花网上爬取一些校花的照片"""fromrequests_htmlimportH

大家好,又见面了,我是你们的朋友全栈君。

"""
今天我们开始尝试,第一次学习爬虫的第一个案例,去校花网上爬取一些校花的照片

"""
from requests_html import HTMLSession
##首先导入这个包

# 然后定义一个类,将这个功能封装起来,将我们所要实现的功能,都封装到这个类中
# 在以后的编程中,尽量将实现同一功能的函数,都封装到一个类中,这样比较方便


class Spider(object):
def __init__(self):
self.session = HTMLSession() ##先 生成一个这样的对象

def get_index_url(self):
##获取需要爬取的url路由
for i in range(1, 4):
##分页处理,由于第一个路由没有规律,所以第一个需要特殊处理.
##这里我们的校花网图片只有三页,以后爬取其他网站,我们也要找到
# 分页的url的规律,然后生成这样一个生成器,然后逐个返回
if i == 1:
yield 'http://www.xiaohuar.com/meinv/'
#这是一个生成器对象 ,每次返回一个元素 下次继续从这里执行
else:
yield 'http://www.xiaohuar.com/meinv/index_%s' % i

#当我们得到了要爬取图片的url之后,就要去找图片的具体的位置路径了.
def get_img_url(self, index_url):###将页面的url传进来
r = self.session.get(url=index_url)
###这个就是通过那个路由,模拟路由器向这个URL发送请求,得到那个返回的html
for element in r.html.find('.items'): ##现在就是利用那个css选择器从那个返回的结果中筛选
##这里使用的是类选择器,凡是有 class = 'items'的都会被筛选出来
img_element = element.find('img', first=True)##first=True 表示获取列表中的第一个元素
##然后继续在这个刚才筛选出来的结果中继续筛选,就标签选择器
title_element = element.find('.p_title a', first=True)
##这个是获取图片的名称的那个a标签
yield "http://www.xiaohuar.com" + img_element.attrs.get('src'), title_element.text
###将这两个标签对象返回出去,由于第一个路径不是绝对路径是一个相对路径,所以这里需要做一个拼接

def save_img(self, img_url, img_name): ###保存图片到本地,并且命名
img_name = img_name.replace('/', '').replace("\\", "") + ".jpg"
###因为我们之前获取的文件名中 可能会有 \ 或者 / 这种特殊符号,存成文件名会被识别成文件夹名称
##所以这里我们需要替换一下 双\\ 表示转义之后的 \
r = self.session.get(url=img_url) ##根据图片的资源地址 获取资源
with open(img_name, 'wb') as f:
f.write(r.content)
# r.content 就是那个图片的二进制数据流
print("%s下载完成" % img_name)

def run(self): ##执行函数
for index_url in self.get_index_url():
for img_url, img_name in self.get_img_url(index_url):
self.save_img(img_url, img_name)


if __name__ == '__main__':
xiaohua = Spider()
xiaohua.run()
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/155681.html原文链接:https://javaforall.net

(0)
上一篇 2022年7月3日 下午2:16
下一篇 2022年7月3日 下午2:16


相关推荐

  • Page.ClientScript.RegisterStartupScript() 方法「建议收藏」

    Page.ClientScript.RegisterStartupScript() 方法「建议收藏」Page.ClientScript.RegisterStartupScript()方法与Page.ClientScript.RegisterClientScriptBlock()方法最初可用的选项之一就是使用一个可实现此功能的.NET类来注册脚本块。第一个是RegisterStartupScript方法。当您有一个想要在页面加载时启动的JavaScript函数

    2022年7月20日
    24
  • 通俗理解“回调函数”

    通俗理解“回调函数”我们先来看看回调的英文定义 Acallbackisa 字面上的理解 回调函数就是一个参数 将这个函数作为参数传到另一个函数里面 当那个函数执行完之后 再执行传进去的

    2026年3月18日
    2
  • 环科跨考数一英一408经验帖

    环科跨考数一英一408经验帖环科跨考数一英一 408 经验帖写在开头个人情况本科情况考研情况政治英一阶段一 暑假前阶段二 暑假阶段三 考研前数一 408 时间表写在开头这篇经验贴耽搁了很久 其实一开始没打算写 主要是考虑到每个人的起点都不太一样 经验贴起的作用有限 其次是感觉自己也不算很厉害 没资格写 但总的来说 自己这大半年的考研时光走了不少弯路 也走了很多捷径 现开个坑 希望能对学弟学妹们有所帮助 个人情况本科情况本科院校 985 专业 环境科学成绩 挂科一门 绩点在 3 左右 均分不到 80 六级 最高分不到五百 记录是大二

    2026年3月17日
    1
  • python lambda表达式举例_Python中lambda表达式[通俗易懂]

    python lambda表达式举例_Python中lambda表达式[通俗易懂]一、lambda表达式形式lambda后面跟一个或多个参数,紧跟一个冒号,以后是一个表达式。冒号前是参数,冒号后是返回值。lambda是一个表达式而不是一个语句。lambda表达式可以出现在Python语法不允许def出现的地方。lambda表达式返回一个值。二、与def的区别lambda用来编写简单的函数,不会再重复利用的函数。而def用来处理强大的任务。三、举例1、fun=lambdax…

    2022年10月10日
    5
  • Java静态变量存储在内存中的什么位置?「建议收藏」

    Java静态变量存储在内存中的什么位置?「建议收藏」静态成员变量存储在堆的永久生成区域中。这是因为static不属于对象而是属于类,所以它被认为是类定义的一部分。如果静态变量是基元类型,它们将存储在permGen中。如果静态变量是一个引用变量,例如staticPersonobj=newPerson(),那么reference变量obj将被存储在permGen中,新创建的objected将被放置在年轻一代中。…

    2022年6月12日
    66
  • SEIR模型案例_SOR模型

    SEIR模型案例_SOR模型SEIR模型案例原理说明https://zhuanlan.zhihu.com/p/142117573%N是群体总样本数E=0;%潜伏期人数I=1;%患者人数S=N-I;%易感者人数

    2022年8月1日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号