(一)如何让selenium爬我们需要的东西

(一)如何让selenium爬我们需要的东西

前言

本博客会以艺龙旅游网为对象,进行selenium的学习

由于区区在下在学校参加了一个名为创新创业工作室的地方,所以今天老师召集我们给我们开了个会,让我们对他们的网站做补充,缺少资料。(因为他不会做爬虫对某种信息进行实时性爬取,我怀疑网站也是别人给他做的)
无奈

所以有些体力活需要我们去做:手动将数据从某网站下载,然后通过某网站对坐标进行处理,然后进入网站后台将数据存储(手动一个一个打)。
哭了

但是我通过对网站进行分析,发现如果单纯使用requests话,就只能爬取一页的数据,不能翻页(因为翻页url是不变的),所以我就想到了selenium,但是我又不会用,那就一起来学习一下吧。
哈哈

确定目标:http://www.elong.com/
目的:爬取艺龙网中南阳市唐河县的酒店信息,包括:名字,电话,标间价格,地址,介绍,图片
在这里插入图片描述

selenium在python中的使用

1.了解selenium

Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safar等浏览器(需要下载驱动),之前是用来做测试网站的,后来发现也可以用来爬取数据(估计开发者都没想到他开发的selenium被别人广泛适用于爬虫领域——笑)。

2.selenium的下载

  1. 我这里是使用的Chrom浏览器 !注意不要忽视这个地方

  2. python中selenium库的下载(pycharm系列)

    由于我用的pycharm的虚拟环境,所以我只需要在pycharm的终端下载第三方库就行了,简单,方便,pycharm真是个好用的东西——O(∩_∩)O~

    1. 打开pycharm
    2. 打开pycharm的终端
    3. 输入pip install selenium -i https://pypi.doubanio.com/simple (这是使用国内镜像网站下载selenium,下载速度较快)
    4. 等待片刻,结束
    5. pip list ——查看自己下载的第三方库,检查是否成功
  3. python中selenium库的下载(cmd系列)

    1. win+R输入cmd
    2. 打开cmd
    3. 输入pip install selenium -i https://pypi.doubanio.com/simple (这是使用国内镜像网站下载selenium,下载速度较快)
    4. 等待片刻,结束
    5. pip list ——查看自己下载的第三方库,检查是否成功
  4. selenium驱动的下载(这里我直接给云盘链接,官网都是英文,看不懂)

    1. 打开你的Chrom浏览器查看你是什么版本的(帮助->about chrom),查看版本号
    2. 点击右边这个蓝色的小可爱,没错我是小可爱 ,找到与你的chrom浏览器版本相匹配的(没有匹配的,相近的也可以,win都是32位的),下载
    3. 没了,没错,你没看错,真的没了
  5. selenium的环境配置,没错又是这个烦人的环境配置 真想给他一脚

    1. 想必,这个时候已经下载好了吧
    2. 下载好以后,很简单,解压,然后——看3
    3. 最好(但是不是必要)创建一个文件夹放你解压出来的geckodriver,然后复制你这个文件当前的路径(ctrl + c)
    4. 打开环境变量(此电脑->右键->属性->高级系统配置->环境变量),在系统变量找到path,新建,ctrl + v
    5. 完事
  6. 打开你的pycharm,新建一个py文件去写出以下代码

from selenium import webdriver
import time
# 导入时间包和selenium包
huohu = webdriver.Chrome()
# 创建一个chome的selenium对象
huohu.get("http://www.elong.com/")
# 打开网站
huohu.quit()
# 退出

写好后,运行
好,报错了,对,报错了,可能你们不会报错,反正我报错了

报错信息是:selenium.common.exceptions.WebDriverException: Message: ‘chromedriver’ executable needs to be in PATH.

意思是,你需要吧chromdriver放到路径,我照着做了,可是呢,还是这个报错!

在这里插入图片描述

这是什么情况??明明我是按照教程来的啊

着急的我去群里请求大佬,大佬们直接无视我——::>_<::

然后又去找它——>CSDN,左翻翻,右找找,终于找到了解决方案:

将chromdriver放在python解释器的位置,我照着做了之后,就成功了。。。

好家伙,上面教程不是说随便放的吗?…

哎,人与人之间最基本的信任都没有了

(一)如何让selenium爬我们需要的东西

3. selenium的基本使用

from selenium import webdriver
# 导包
driver = webdriver.Chrome()
# 创建一个浏览器对象
driver.get("https://m.elong.com/")
# 访问艺龙网
driver.quit()
# 关闭浏览器,也可以不关闭,但是最好关闭,养成一个打开后不忘记关闭的好习惯

然后我们就会发现,浏览器界面一闪而过(为什么?因为页面渲染完成后,就直接退出了),那么如何才能让我们能够观察到呢?有请我们的time模块,让它睡会儿,就能观察到了
这样改

from selenium import webdriver
import time
# 导包
driver = webdriver.Chrome()
driver.get("https://m.elong.com/")
time.sleep(5)
# 页面渲染完成后让它睡5s,这样就能观察到了
driver.quit()

OK,看到,代码替我们打开了这个网址,并且展示了5s后关闭了

结语

好了,相信大家已经学会如何使用筷子了,那么让我们去动用我们的筷子去把这个网站抓下来吧——笑,玩个老梗
今天的笔记就到这里了(主要是不想写了,一天当然不可能只学会点这玩意),拜拜

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/100266.html原文链接:https://javaforall.net

(0)
上一篇 2021年5月17日 上午9:00
下一篇 2021年5月17日 上午10:00


相关推荐

  • Android逆向(一)Android逆向工具(一)

    Android逆向(一)Android逆向工具(一)最近一周时间 在学习和研究 Android 逆向 接下来一段时间 写一系列 Android 逆向的博客 来总结和记录自己所掌握的知识 也希望为正在学习 Android 逆向的朋友带来一点帮助 首先 简单说一下自己对 Android 逆向的理解 Android 逆向 就是把已经编译好的 apk 通过使用一系列的工具 获取到 源代码 获取到源代码后 我们可以替代和修改其中的一些代码 重新打包 生成新

    2026年3月20日
    6
  • 月之暗面推出Kimi Code:编程的未来已来临!

    月之暗面推出Kimi Code:编程的未来已来临!

    2026年3月12日
    2
  • [排序算法]–冒泡排序的三种实现(Java)

    [排序算法]–冒泡排序的三种实现(Java)冒泡排序是非常好理解的,以从小到大排序为例,每一轮排序就找出未排序序列中最大值放在最后。设数组的长度为N:(1)比较前后相邻的二个数据,如果前面数据大于后面的数据,就将这二个数据交换。(2)这样对数组的第0个数据到N-1个数据进行一次遍历后,最大的一个数据就“沉”到数组第N-1个位置。(3)N=N-1,如果N不为0就重复前面二步,否则排序完成。以上就是冒泡排序的基本思想,按照这个定义很快就能写

    2022年6月22日
    28
  • J2EE是什么,主要包括哪些技术[通俗易懂]

    J2EE是什么,主要包括哪些技术[通俗易懂]https://blog.csdn.net/Ashes18/article/details/73614571最近最为深刻的认识:被面试老师问到了的知识,哪些是在自己心中模棱两可,似是而非的概念都一目了然。而后,只有在顿悟中不断总结才能进步。今天,我总结的部分是J2EE到底是什么东西,它包括了哪些技术。一、J2EE是什么?从整体上讲,J2EE是使用Java技术开发企业级应用的工业标准,它…

    2022年10月11日
    5
  • unity常用的800个脚本_unity怎么挂载脚本

    unity常用的800个脚本_unity怎么挂载脚本使用Flow类型的指令十分类似于使用英语口语,基本上这些指令的单词只要看到就能猜到它的作用,尤其是学过编程的朋友对其中的某些单词一定很熟悉。 1)Break:让一个循环强制终止。 2)Wait和WaitFreams:前者为等待若干秒(second),后者为等待若干帧(fream)。        3)Stop和StopBlock和S…

    2025年6月29日
    3
  • java记录访问时间_在java中记录上次访问时间和上次修改时间?

    java记录访问时间_在java中记录上次访问时间和上次修改时间?首先,让我们关注这些事物的含义.访问–上次读取文件的时间,即上次访问文件数据的时间.修改–上次修改文件(内容已被修改),即文件数据上次修改的时间.更改–文件的元数据的最后一次更改(例如,权限),即上次更改文件状态的时间.编辑.访问时间正在改变.我建议你使用Thread.sleep(100)或其他东西,然后看看这个问题是否仍然存在.如果是这样,罪魁祸首就必须是您正在运行的操作系统,因为J…

    2022年7月8日
    23

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号