Java爬虫系列四:使用selenium-java爬取js异步请求的数据[通俗易懂]

在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据,但是有时候通过这两种方式不能正常抓取到我们想要的数据,比如看如下例子。

大家好,又见面了,我是全栈君。

在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据,但是有时候通过这两种方式不能正常抓取到我们想要的数据,比如看如下例子。

1.需求场景:

想要抓取股票的最新价格,页面F12信息如下:
Java爬虫系列四:使用selenium-java爬取js异步请求的数据[通俗易懂]
按照前面的方式,爬取的代码如下:

/**
 * @description: 爬取股票的最新股价
 * @author: JAVA开发老菜鸟
 * @date: 2021-10-16 21:47
 */
public class StockPriceSpider {

    Logger logger = LoggerFactory.getLogger(this.getClass());

    public static void main(String[] args) {

        StockPriceSpider stockPriceSpider = new StockPriceSpider();
        String html = stockPriceSpider.httpClientProcess();
        stockPriceSpider.jsoupProcess(html);
    }

    private String httpClientProcess() {
        String html = "";
        String uri = "http://quote.eastmoney.com/sh600036.html";
        //1.生成httpclient,相当于该打开一个浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        //2.创建get请求,相当于在浏览器地址栏输入 网址
        HttpGet request = new HttpGet(uri);
        try {
            request.setHeader("user-agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36");
            request.setHeader("accept", "application/json, text/javascript, */*; q=0.01");

//            HttpHost proxy = new HttpHost("3.211.17.212", 80);
//            RequestConfig config = RequestConfig.custom().setProxy(proxy).build();
//            request.setConfig(config);

            //3.执行get请求,相当于在输入地址栏后敲回车键
            response = httpClient.execute(request);

            //4.判断响应状态为200,进行处理
            if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
                //5.获取响应内容
                HttpEntity httpEntity = response.getEntity();
                html = EntityUtils.toString(httpEntity, "utf-8");
                logger.info("访问{} 成功,返回页面数据{}", uri, html);
            } else {
                //如果返回状态不是200,比如404(页面不存在)等,根据情况做处理,这里略
                logger.info("访问{},返回状态不是200", uri);
                logger.info(EntityUtils.toString(response.getEntity(), "utf-8"));
            }
        } catch (ClientProtocolException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            //6.关闭
            HttpClientUtils.closeQuietly(response);
            HttpClientUtils.closeQuietly(httpClient);
        }
        return html;
    }

    private void jsoupProcess(String html) {
        Document document = Jsoup.parse(html);
        Element price = document.getElementById("price9");
        logger.info("股价为:>>> {}", price.text());
    }

}

运行结果:
Java爬虫系列四:使用selenium-java爬取js异步请求的数据[通俗易懂]

纳尼,股价为”-” ?不可能。
之所以爬不到正确的结果,是因为这个值在网站上是通过异步加载渲染的,因此不能正常获取。

2.java爬取异步加载的数据的方法

那如何爬取异步加载的数据呢?通常有两种做法:

2.1内置浏览器内核

内置浏览器就是在抓取的程序中启动一个浏览器内核,使我们获取到 js 渲染后的页面就和静态页面一样。常用的内核有

  • Selenium
  • PhantomJs
  • HtmlUnit

这里我选了Selenium,它是一个模拟浏览器,是进行自动化测试的工具,它提供一组 API 可以与真实的浏览器内核交互。当然,爬虫也可以用它。
具体做法如下:

  • 引入pom依赖
<dependency>
   <groupId>org.seleniumhq.selenium</groupId>
   <artifactId>selenium-java</artifactId>
   <version>3.141.59</version>
</dependency>
  • 配置对应浏览器的驱动
    要使用selenium,需要下载浏览器的驱动,根据不同的浏览器要下载的驱动程序也不一样,下载地址为:https://npm.taobao.org/mirrors/chromedriver/
    我用的是谷歌浏览器,因此下载了对应版本的windows和linux驱动。
    Java爬虫系列四:使用selenium-java爬取js异步请求的数据[通俗易懂]
    Java爬虫系列四:使用selenium-java爬取js异步请求的数据[通俗易懂]

    下载后需要配置进java环境变量里面,指定驱动的目录:

    System.getProperties().setProperty(“webdriver.chrome.driver”, “F:/download/chromedriver_win32_1/chromedriver.exe”);

  • 代码实现:

    Logger logger = LoggerFactory.getLogger(this.getClass());
    
      public static void main(String[] args) {
    
          StockPriceSpider stockPriceSpider = new StockPriceSpider();
          stockPriceSpider.seleniumProcess();
      }
    
      private void seleniumProcess() {
    
          String uri = "http://quote.eastmoney.com/sh600036.html";
    
          // 设置 chromedirver 的存放位置
          System.getProperties().setProperty("webdriver.chrome.driver", "F:/download/chromedriver_win32_1/chromedriver.exe");
    
          // 设置浏览器参数
          ChromeOptions chromeOptions = new ChromeOptions();
          chromeOptions.addArguments("--no-sandbox");//禁用沙箱
          chromeOptions.addArguments("--disable-dev-shm-usage");//禁用开发者shm
          chromeOptions.addArguments("--headless"); //无头浏览器,这样不会打开浏览器窗口
          WebDriver webDriver = new ChromeDriver(chromeOptions);
    
          webDriver.get(uri);
          WebElement webElements = webDriver.findElement(By.id("price9"));
          String stockPrice = webElements.getText();
          logger.info("最新股价为 >>> {}", stockPrice);
          webDriver.close();
      }
    

    执行结果:
    Java爬虫系列四:使用selenium-java爬取js异步请求的数据[通俗易懂]

    爬取成功!

2.2反向解析法

反向解析法就是通过F12查找到 Ajax 异步获取数据的链接,直接调用该链接得到json结果,然后直接解析json结果获取想要的数据。
这个方法的关键就在于找到这个Ajax链接。这种方式我没有去研究,感兴趣的可以百度下。这里略。

3.结束语

以上即为如何通过selenium-java爬取异步加载的数据的方法。通过本方法,我写了一个小工具:
持仓市值通知系统,他会每日根据自己的持仓配置,自动计算账户总市值,并邮件通知到指定邮箱。
用到的技术如下:

相关代码已经上传到我的码云,感兴趣可以看下。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120869.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 等价类划分法三角形测试用例_三角形等价类划分

    等价类划分法三角形测试用例_三角形等价类划分测试用例实例--三角形用例设计测试一个图形是不是三角形,需考虑到三角形的性质要求。除了满足ABC均是整数且大于0,还需满足A>0,B>0,C>0,且A+B>C,B+C>A,A+C>B。如果是等腰的,还要判断A=B,或B=C,或A=C。如果是等边的,则需判断是否A=B,且B=C,且A=C。输入条件有效等价类无效等价类

    2022年10月17日
    0
  • Django(20)ORM模型迁移命令

    Django(20)ORM模型迁移命令迁移命令makemigrations:将模型生成迁移脚本。模型所在的app,必须放在settings.py中的INSTALLED_APPS中。这个命令有以下几个常用选项:app_label:后面可

    2022年7月28日
    4
  • PL/SQL Developer下载安装及使用[通俗易懂]

    PL/SQL Developer下载安装及使用[通俗易懂]PL/SQLDeveloper下载安装及使用前言PL/SQLDeveloper是什么PL/SQLDeveloper下载PL/SQLDeveloper安装PL/SQLDeveloper使用PL/SQLDeveloper汉化PL/SQLDeveloper修改字体PL/SQLDeveloper编写SQL代码PL/SQLDeveloper连接远程服务器前言古语说的好,工欲善其事必先利其器。在开发中我们乜需要熟悉各种开发工具、数据库集成开发工具、等其他工具的使用。因为笔者在公司所使用的是or

    2022年10月12日
    0
  • mysql错误码2058_MySQL 1045

    mysql错误码2058_MySQL 1045配置新连接报错:错误号码2058,分析是mysql密码加密方法变了。解决方法:windows下cmd登录mysql-uroot-p登录你的mysql数据库,然后执行这条SQL:ALTERUSER’root’@’localhost’IDENTIFIEDWITHmysql_native_passwordBY’password’;(注意分号)#password是你…

    2022年10月2日
    0
  • 计算机一级ip地址分类,IP地址分类和子网划分[通俗易懂]

    计算机一级ip地址分类,IP地址分类和子网划分[通俗易懂]一、IP地址1、IP地址概述§在一个IP网络中每一个设备的唯一标识符,有32位二进制数组成,这些位通常被分割成四组,每组包含一个字节(8位)。然后转换成十进制表示,这叫点分十进制表示法。§每一个主机(计算机,网络设备,外围设备)必须有一个唯一的地址。§IP地址由网络ID和主机ID组成,网络ID:标识某个网段,在同一个网段的计算机,它们的网络ID是一样的,不同网段的计算机,它们的网络ID…

    2022年6月5日
    36
  • arcpy环境搭建「建议收藏」

    arcpy环境搭建「建议收藏」1.1什么是ArcPy?ArcPy是一个以成功的arcgisscripting模块为基础并继承了arcgisscripting功能进而构建而成的站点包。目的是为以实用高效的方式通过Python执行地理数据分析、数据转换、数据管理和地图自动化创建基础。该包提供了丰富纯正的Python体验,具有代码自动完成功能(输入关键字和点即可获得该关键字所支持的属性和方法的弹出列表;从中选择

    2022年10月24日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号