java爬虫系列(一)——爬虫入门[通俗易懂]

java爬虫系列(一)——爬虫入门[通俗易懂]爬虫框架介绍Heritrix优势劣势简单demo地址crawler4j优势劣势简单demo地址WebMagic优势劣势简单demo地址快速入门seimicrawler项目地址简单爬虫实现导入项目编写爬虫启动爬虫同系列文章爬虫框架介绍java爬虫框架非常多,比如较早的有Heritrix,轻量级的crawler4j…

大家好,又见面了,我是你们的朋友全栈君。

爬虫框架介绍

java爬虫框架非常多,比如较早的有Heritrix,轻量级的crawler4j,还有现在最火的WebMagic。
他们各有各的优势和劣势,我这里顺便简单介绍一下吧。

Heritrix

优势

java的第一批爬虫框架,拥有独立的后台页面,可以实现界面操作去爬去网页。

劣势

相对其他框架,代码相对臃肿,上手难度较高,解析网页不如其他框架灵活。

简单demo地址

https://github.com/a252937166/Heritrix

crawler4j

优势

代码相当轻量级,可实现多线程爬取,上手难度低。

劣势

封装程度太低,很多功能需要开发者自己封装实现,多线程下,很容易重复爬取相同资源。

简单demo地址

https://github.com/a252937166/crawler4j

WebMagic

优势

这框架我们公司在用,各方面都比较完美吧,上手难度低,社区活跃度也较高,有问题可以得到及时反馈。

劣势

没有持久层框架的封装,需要自己实现。

简单demo地址

这个框架我没有自己的demo,大家可以去开发者的GitHub看看
https://github.com/code4craft/webmagic

快速入门

seimicrawler

我这里推荐使用seimicrawler,个人感觉这个框架配合JsoupXpath,解析网页真心非常方便,而且框架整合了spring,用起来也很顺手。

项目地址

中文官网地址:http://seimicrawler.org/
官方Github地址:https://github.com/zhegexiaohuozi/SeimiCrawler
自己修改项目地址:https://github.com/a252937166/seimicrawler/

简单爬虫实现

导入项目

下载源码,解压后把demo目录的文件单独拿出来,project目录不用管,里面是这个框架的一些源码,demo直接maven依赖它就可以了。
以maven的形式,导入demo,等待jar拉取玩,项目不报错就说明导入成功了。

编写爬虫

打开crawlers文件夹,里面每个文件都是一个爬虫,我们可以学习一下Basic,这是开发者写的最简单的爬虫demo,其他的都可以以此内推。

package com.ouyang.crawlers;

import cn.wanghaomiao.seimi.annotation.Crawler;
import cn.wanghaomiao.seimi.def.BaseSeimiCrawler;
import cn.wanghaomiao.seimi.struct.Request;
import cn.wanghaomiao.seimi.struct.Response;
import cn.wanghaomiao.xpath.model.JXDocument;

import java.util.HashMap;
import java.util.List;
import java.util.Map;

/** * @author 汪浩淼 [et.tw@163.com] * @since 2015/10/21. */
@Crawler(name = "basic")
public class Basic extends BaseSeimiCrawler { 
   
    @Override
    public String[] startUrls() {
        //两个是测试去重的
        return new String[]{
  
  "http://www.cnblogs.com/","http://www.cnblogs.com/"};
    }

    @Override
    public void start(Response response) {
        JXDocument doc = response.document();
        try {
            List<Object> urls = doc.sel("//a[@class='titlelnk']/@href");
            logger.info("{}", urls.size());
            Map map = new HashMap();
            map.put("ddd","aaa");
            for (Object s:urls){
                push(new Request(s.toString(),"getTitle").setParams(map));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    public void getTitle(Response response){
        JXDocument doc = response.document();
        try {
            logger.info("url:{} {}", response.getUrl(), doc.sel("//h1[@class='postTitle']/a/text()|//a[@id='cb_post_title_url']/text()"));
            //do something
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

我来解释一下,response.document()表示把网页返回信息解析为一个JXDocument类,JXDocument支持JsoupXpath语法,比如//a[@class='titlelnk']/@href,表示从网页根目录下,查找<a class='titlelnk'></>,并获取其href的值。具体语法可以见http://www.w3school.com.cn/xpath/xpath_syntax.asp

爬虫需要实现的具体业务,在start()方法里实现就行了,想要继续爬取新的网页,用push()实现,push()会新开启一个线程,push(new Request(s.toString(),"getTitle").setParams(map),表示爬取s.toString(),这个网页,并且回调getTitle()方法。

@Crawler(name = "basic")表示爬虫名字。

启动爬虫

可以写一个main函数,new 一个Semi()对象,调用其goRun()方法机型了。

public class Boot {
    public static void main(String[] args){
        Seimi s = new Seimi();
        s.goRun("basic");
    }
}

以上代码就表示启动basic爬虫,运行main函数就开始爬取网页了。
这里写图片描述


图(1)

同系列文章

java爬虫系列(二)——爬取动态网页
java爬虫系列(三)——漫画网站爬取实战
java爬虫系列(四)——动态网页爬虫升级版
java爬虫系列(五)——今日头条文章爬虫实战

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/156729.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • idea设置文件头注释_idea设置方法注释

    idea设置文件头注释_idea设置方法注释idea和eclipse的注释还是有一些差别的。idea:类头注释:打开file->setting->Editor->FilrandCodeTemplates->Includes->FileHeader直接在右边的文件框里编辑你说需要注释的东西,然后应用保存之后,当你创建类的时候就会自动生成注释。方法注释:打开file->setting->Editor->LiveTemplate

    2022年9月1日
    2
  • 网页音乐播放器总结[通俗易懂]

    网页音乐播放器总结[通俗易懂]总结一下Vue实战的网页音乐播放器首先是设计出主体的整个框架分为四个部分最左边的歌曲列表,中间的唱片,最右边的热门评论显示以及下方的播放条然后开始准备进行功能的实现首先是需要导入Vue的依赖以及axios的js网络依赖库<!–开发环境版本,包含了有帮助的命令行警告–><scriptsrc=”https://cdn.jsdelivr.net/npm/vue/dist/vue.js”></script><!–官网提供的axio

    2022年6月17日
    33
  • docker前端独立部署_前后端分离静态资源部署

    docker前端独立部署_前后端分离静态资源部署提示:本次部署采用centos7服务器,使用nginx进行反向代理,运行docker容器完成上线。小白看完这篇都会了!

    2022年10月11日
    0
  • ping命令的使用及代码_通过命令查看ping路径

    ping命令的使用及代码_通过命令查看ping路径在这个时代,科技越来越发达,网络已经越来越成为人们不可缺少的一部分。计算机也已经是很多学校的课程了,因为计算机技术是非常有技术性的专业,它其中涉及到很多专业知识,需要通过学习才能掌握。今日小编就为大家介绍一个计算机的命令,它叫做Ping,这边介绍一下它的入门知识,主要是关于ping连接和命令方面的介绍。  1、Ping的基础知识  ping命令相信大家已经再熟悉不过了,但是能把ping的功能发…

    2022年4月19日
    798
  • License Error:“Failed to Open the TCP Port Number in the License “终极解决方案

    License Error:“Failed to Open the TCP Port Number in the License “终极解决方案为什么叫终极解决方案,不是笔者吹牛,这个列表比目前synopsys,cadence,的support文档里的内容都全,还有FLEXnet的帮助文档也没这全。这些招大部分edavendor的工程师也不全会,真实结论不是瞎说。这事折腾好久,花了很多精力,就让笔者吹吹牛吧,哈哈。另外,如果以下的问题都排除了,还报这个license错,不要怀疑列表不全,99%的可能是其中哪一步做的不彻底。挨

    2022年7月26日
    50
  • n皇后问题-回溯法求解[通俗易懂]

    n皇后问题-回溯法求解[通俗易懂]n皇后问题-回溯法求解1.算法描述在n×n格的国际象棋上摆放n个皇后,使其不能互相攻击,即任意两个皇后都不能处于同一行、同一列或同一斜线上,问有多少种摆法。n皇后是由八皇后问题演变而来的。该问题是国际西洋棋棋手马克斯·贝瑟尔于1848年提出:在8×8格的国际象棋上摆放八个皇后,使其不能互相攻击,即任意两个皇后都不能处于同一行、同一列或同一斜线上,问有多少种摆法。高斯认为有76…

    2022年9月30日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号