node.js写爬虫程序抓取维基百科(wikiSpider)

node.js写爬虫程序抓取维基百科(wikiSpider)

任务说明

抓取维基百科中文站某几个分类到本地,包括图片资源,能在单机直接浏览。

基本思路

思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中。这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务。
思路二(origin:cat):按分类进行抓取。注意到,维基百科上,分类都以Category:开头,由于维基百科有很好的文档结构,很容易从任一个分类,开始,一直把其下的所有分类全都抓取下来。这个算法对分类页面,提取子分类,且并行抓取其下所有页面,速度快,可以把分类结构保存下来,但其实有很多的重复页面,不过这个可以后期写个脚本就能很容易的处理。

库的选择

开始想用jsdom,虽然感觉它功能强大,但也比较“重”,最要命的是说明文档不够好,只说了它的优势,没一个全面的说明。因此,换成cheerio,轻量级,功能比较全,至少文档一看就能有一个整体概念。其实做到后来,才发现根本不需要库,用正则表达式就能搞定一切!用库只是少写了一点正则而矣。

关键点

全局变量设定

var regKey = ['航空母舰','航空母艦','航母'];    //链接中若包含此中关键词,即为目标
var allKeys = [];                            //链接的title,也是页面标识,避免重复抓取
var keys = ['Category:%E8%88%AA%E7%A9%BA%E6%AF%8D%E8%88%B0'];    //等待队列,起始页

图片下载

使用request库的流式操作,让每一个下载操作形成闭包。注意异步操作可能带来的副作用。另外,图片名字要重新设定,开始我取原名,不知道为什么,有的图明明存在,就是显示不出来;并且要把srcset属性清理掉,不然本面显示不出来。

$ = cheer.load(downHtml);
  var rsHtml = $.html();
  var imgs = $('#bodyContent .image');        //图片都由这个样式修饰
  for(img in imgs){
    if(typeof imgs[img].attribs === 'undefined' || typeof imgs[img].attribs.href === 'undefined')
      {continue;}    //结构为链接下的图片,链接不存在,跳过
    else
      {
        var picUrl = imgs[img].children[0].attribs.src;    //图片地址
        var dirs = picUrl.split('.');
        var filename = baseDir+uuid.v1()+'.'+dirs[dirs.length -1];    //重新命名

        request("https:"+picUrl).pipe(fs.createWriteStream('pages/'+filename));    //下载

        rsHtml = rsHtml.replace(picUrl,filename);    //换成本地路径
        // console.log(picUrl);
      }
  }

广度优先遍历

开始没能完全理解异步的概念,以循环方式来做,以为使用了Promise,就已经全转化为同步了,但其实只是能保证交给promise的操作会有序进行,并不能让这些操作与其它的操作有序化!如,下面的代码就是不正确的。

var keys = ['航空母舰'];
var key = keys.shift();
while(key){
  data.get({
    url:encodeURI(key),
    qs:null
  }).then(function(downHtml){
       ...
       keys.push(key);                //(1)
    }
  });
key = keys.shift();                    //(2)
}

上面的操作看试很正常,但其实(2)会在(1)之间被运行!哪怎么办?
我使用递归来解决这个问题。如下示例代码:

var key = keys.shift();
(function doNext(key){
  data.get({
    url:key,
    qs:null
  }).then(function(downHtml){
    ...
    keys.push(href);
    ...
    key = keys.shift();
    if(key){
      doNext(key);
    }else{
      console.log('抓取任务顺利完成。')
    }
  })
})(key);

正则清理

使用正则表达式清理无用的页面代码,因为有很多模式需要处理,写了一个循环统一处理。

var regs = [/<link rel=\"stylesheet\" href=\"?[^\"]*\">/g,
    /<script>?[^<]*<\/script>/g,
  /<style>?[^<]*<\/style>/g,
  /<a ?[^>]*>/g,
  /<\/a>/g,
  /srcset=(\"?[^\"]*\")/g
  ]
  regs.forEach(function(rs){
    var mactches = rsHtml.match(rs);
    for (var i=0;i < mactches.length ; i++)
    {
      rsHtml = rsHtml.replace(mactches[i],mactches[i].indexOf('stylesheet')>-1?'<link rel="stylesheet" href="wiki'+(i+1)+'.css"':'');
    }
  })

运行效果

上维基中文是需要FQ的,试运行了一下,抓取 航空母舰 分类,运行过程中,发现了三百左右的相关链接(包括分类页面,这些页面我是只取有效链接,不下载),最终正确的下载了209个,手工测试了一些出错链接,发现都为无效链接,显示该词条还未建立,整个过程大概花了不到十五分钟,压缩后近三十M,感觉效果还不错。

源代码

https://github.com/zhoutk/wikiSpider

小结

到昨晚基本完成任务,思路一能够抓取内容比较准确的页面,而且页面不重复,但抓取效率不高,分类信息无法准确获得;思路二能够按维基百科的分类,自动抓取并分门别类的把文件存储到本地,效率高(实测,抓取【军舰】类,共抓取页面近六千个,费时五十来分钟,每分钟能抓取超过一百个页面),能准确的保存分类信息。
最大的收获在于深刻的理解了异步编程的整体流程控制。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/109207.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mvc(1)——新建一个ASP.NET MVC项目

    mvc(1)——新建一个ASP.NET MVC项目一、新建一个空MVC项目  对于mvc的应用,我想第一步就应该是建立一个mvc项目了。废话不说了,直接上。  在“File(文件)”菜单中选择“New(新建)”——“Project(项目)”  打开“NewProject(新项目)”对话框。如果在左侧”VisualC#”目录树中选择”Web”模板,会看到”ASP.NETWebApplication(ASP.NETWeb应用程序)”项…

    2022年7月15日
    15
  • LVS实现负载均衡「建议收藏」

    LVS实现负载均衡「建议收藏」一、LVS1、LVS是什么?LVS(LinuxVirtualServer)即Linux虚拟服务器,是由章文嵩博士主导的开源负载均衡项目,目前LVS已经被集成到Linux内核模块中。终端互联网用户从外部访问公司的外部负载均衡服务器,终端用户的Web请求会发送给LVS调度器,调度器根据自己预设的算法决定将该请求发送给后端的某台Web服务器,比如,轮询算法可以将外部的请求平均分…

    2022年7月23日
    10
  • MATLAB(2)–MATLAB矩阵的表示

    MATLAB(2)–MATLAB矩阵的表示MATLAB–MATLAB矩阵的表示矩阵的建立冒号表达式linspace结构矩阵单元矩阵最后矩阵的建立利用直接输入法建立矩阵:将矩阵的元素用中括号括起来,按矩阵的顺序输入各元素,同一行的各元素之间用逗号或者空格分隔,不同的元素之间用分号分隔。利用已建好的矩阵建立更大的矩阵:一个大矩阵可以由已经建立好的小矩阵拼接而成。可以用实部矩阵和虚部矩阵构成复数矩阵。冒号表达式冒号是一个重要的运算符,利用它可以产生行向量。冒号表达式的一般格式为:e1:e2:e3其中,e1为初始值,e2为步长,e3为终

    2022年6月25日
    31
  • 傅里叶变换相关公式

    傅里叶变换相关公式傅里叶变换公式

    2022年7月1日
    23
  • 宽带猫改成桥接模式_电信光猫路由模式

    宽带猫改成桥接模式_电信光猫路由模式目前大多数家庭宽带默认是在光猫直接拨号上网的,如果你想要改为自己的路由器拨号比较麻烦,需要光猫的超级管理员账号才可以进后台修改,但是光猫的超级管理员账号会被运营商远程修改,一般也不会告诉用户,最简单的方式就是打电话给装维师傅,让他帮你把光猫修改为桥接模式,但是最近好多地方的运营商不给修改了,理由是目前的光猫都是智能光猫,业务自动下发的,无法修改,今天就教你修改光猫为桥接模式,而且不让运营商远程修改超级管理员密码,下面以移动光猫吉比特HG6543C4为例演示,其他光猫同理。1.找到光猫背面的设备i信息(管理地

    2022年10月8日
    3
  • 【超分辨】SRGAN详解及其pytorch代码解释

    【超分辨】SRGAN详解及其pytorch代码解释SRGAN 是一个超分辨网络 利用生成对抗网络的方法实现图片的超分辨 本文解释了 SRGAN 原理 同时通过 pytorch 代码实现

    2025年10月14日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号