node.js写爬虫程序抓取维基百科(wikiSpider)

node.js写爬虫程序抓取维基百科(wikiSpider)

任务说明

抓取维基百科中文站某几个分类到本地,包括图片资源,能在单机直接浏览。

基本思路

思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中。这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务。
思路二(origin:cat):按分类进行抓取。注意到,维基百科上,分类都以Category:开头,由于维基百科有很好的文档结构,很容易从任一个分类,开始,一直把其下的所有分类全都抓取下来。这个算法对分类页面,提取子分类,且并行抓取其下所有页面,速度快,可以把分类结构保存下来,但其实有很多的重复页面,不过这个可以后期写个脚本就能很容易的处理。

库的选择

开始想用jsdom,虽然感觉它功能强大,但也比较“重”,最要命的是说明文档不够好,只说了它的优势,没一个全面的说明。因此,换成cheerio,轻量级,功能比较全,至少文档一看就能有一个整体概念。其实做到后来,才发现根本不需要库,用正则表达式就能搞定一切!用库只是少写了一点正则而矣。

关键点

全局变量设定

var regKey = ['航空母舰','航空母艦','航母'];    //链接中若包含此中关键词,即为目标
var allKeys = [];                            //链接的title,也是页面标识,避免重复抓取
var keys = ['Category:%E8%88%AA%E7%A9%BA%E6%AF%8D%E8%88%B0'];    //等待队列,起始页

图片下载

使用request库的流式操作,让每一个下载操作形成闭包。注意异步操作可能带来的副作用。另外,图片名字要重新设定,开始我取原名,不知道为什么,有的图明明存在,就是显示不出来;并且要把srcset属性清理掉,不然本面显示不出来。

$ = cheer.load(downHtml);
  var rsHtml = $.html();
  var imgs = $('#bodyContent .image');        //图片都由这个样式修饰
  for(img in imgs){
    if(typeof imgs[img].attribs === 'undefined' || typeof imgs[img].attribs.href === 'undefined')
      {continue;}    //结构为链接下的图片,链接不存在,跳过
    else
      {
        var picUrl = imgs[img].children[0].attribs.src;    //图片地址
        var dirs = picUrl.split('.');
        var filename = baseDir+uuid.v1()+'.'+dirs[dirs.length -1];    //重新命名

        request("https:"+picUrl).pipe(fs.createWriteStream('pages/'+filename));    //下载

        rsHtml = rsHtml.replace(picUrl,filename);    //换成本地路径
        // console.log(picUrl);
      }
  }

广度优先遍历

开始没能完全理解异步的概念,以循环方式来做,以为使用了Promise,就已经全转化为同步了,但其实只是能保证交给promise的操作会有序进行,并不能让这些操作与其它的操作有序化!如,下面的代码就是不正确的。

var keys = ['航空母舰'];
var key = keys.shift();
while(key){
  data.get({
    url:encodeURI(key),
    qs:null
  }).then(function(downHtml){
       ...
       keys.push(key);                //(1)
    }
  });
key = keys.shift();                    //(2)
}

上面的操作看试很正常,但其实(2)会在(1)之间被运行!哪怎么办?
我使用递归来解决这个问题。如下示例代码:

var key = keys.shift();
(function doNext(key){
  data.get({
    url:key,
    qs:null
  }).then(function(downHtml){
    ...
    keys.push(href);
    ...
    key = keys.shift();
    if(key){
      doNext(key);
    }else{
      console.log('抓取任务顺利完成。')
    }
  })
})(key);

正则清理

使用正则表达式清理无用的页面代码,因为有很多模式需要处理,写了一个循环统一处理。

var regs = [/<link rel=\"stylesheet\" href=\"?[^\"]*\">/g,
    /<script>?[^<]*<\/script>/g,
  /<style>?[^<]*<\/style>/g,
  /<a ?[^>]*>/g,
  /<\/a>/g,
  /srcset=(\"?[^\"]*\")/g
  ]
  regs.forEach(function(rs){
    var mactches = rsHtml.match(rs);
    for (var i=0;i < mactches.length ; i++)
    {
      rsHtml = rsHtml.replace(mactches[i],mactches[i].indexOf('stylesheet')>-1?'<link rel="stylesheet" href="wiki'+(i+1)+'.css"':'');
    }
  })

运行效果

上维基中文是需要FQ的,试运行了一下,抓取 航空母舰 分类,运行过程中,发现了三百左右的相关链接(包括分类页面,这些页面我是只取有效链接,不下载),最终正确的下载了209个,手工测试了一些出错链接,发现都为无效链接,显示该词条还未建立,整个过程大概花了不到十五分钟,压缩后近三十M,感觉效果还不错。

源代码

https://github.com/zhoutk/wikiSpider

小结

到昨晚基本完成任务,思路一能够抓取内容比较准确的页面,而且页面不重复,但抓取效率不高,分类信息无法准确获得;思路二能够按维基百科的分类,自动抓取并分门别类的把文件存储到本地,效率高(实测,抓取【军舰】类,共抓取页面近六千个,费时五十来分钟,每分钟能抓取超过一百个页面),能准确的保存分类信息。
最大的收获在于深刻的理解了异步编程的整体流程控制。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/109207.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • ipvsadm 的基本使用

    ipvsadm 的基本使用要使用 LVS 的能力 只需要安装一个 LVS 的管理工具 ipvsadmLVS 的结构主要分为两个部分 工作在内核空间的 IPVS 模块 LVS 的能力实际上都是由 nbsp IPVS 模块实现的 工作在用户空间的 ipvsadm 模块 其作用就是向用户提供一个命令接口 用于将配置的虚拟服务器 真实服务器等传给 IPVS 模块 nbsp ipvsadm 工具的使用 nbsp nbsp nbsp ipvsadm 命令分为 nbsp 命令

    2025年10月20日
    1
  • softreference 回收_reference stacks

    softreference 回收_reference stacksSoftReference和WeakReferenceJava和Android内存优化的两个类:SoftReference和WeakReferencePostedon2010-10-2200:55charley_yang阅读(436)评论(0)编辑收藏  如果你想写一个Java程序,观察某对象什么时候会被垃圾收集的执行绪清除,你必须要用一个re

    2025年10月5日
    3
  • Idea激活码最新教程2018.2.7版本,永久有效激活码,亲测可用,记得收藏

    Idea激活码最新教程2018.2.7版本,永久有效激活码,亲测可用,记得收藏Idea 激活码教程永久有效 2018 2 7 激活码教程 Windows 版永久激活 持续更新 Idea 激活码 2018 2 7 成功激活

    2025年5月24日
    2
  • jenkins教程

    jenkins教程最近接了公司的挺多运维的活,刚开始很新鲜,后面天天部署各种项目的测试环境和生产环境,加上每个项目n个服务,我就变成了骚是骚,就是太累了。于是我想到了之前一直想用的jenkinsjenkins的作用和它的图标表现出来的一样,就是为了做工作的时候,能够比较轻松,像一个绅士一样游刃有余。一、安装1、进入官网,找到download找来找去,在最下面有个.war因为我是做…

    2022年5月15日
    43
  • ant man什么意思_汽车的ANT是什么意思?

    展开全部ANT就是天线接口,用来连接天线。常见于收音机,或者GPS等上面。在接收短波或FM时需62616964757a686964616fe58685e5aeb931333433626437要外界天线,以增加接收灵敏度。作为高速数据传输领域的新成员,它在智能网联汽车中所起到的作用是举足轻重的。传统汽车对于天线的需求非常有限,仅仅在于接收一些较低频率的AM/FM信号、GPS信号,以及近两年才开始普及…

    2022年4月6日
    297
  • 遍历ArrayList并移除一个元素[通俗易懂]

    遍历ArrayList并移除一个元素[通俗易懂]前言这是一个比较经典的面试题,相信也会有不少人遇到,今天就在此记录一下,写了两种方式供大家参考。方式一在for循环中删除元素,倒序遍历ArrayList能够有效防止漏删,这里大家可能会有疑问了?假设按照从0到size-1下标来删那么如果有相邻的两个元素是一样的,删除了第一个,此时数组长度会-1并且所有元素往前移动一位,那么第二个就移动到第一个元素的位置了,此时控值for循环的下标i已经+1了等于直接就跳过了第二个重复元素,倒叙就不会出现此类情况了。List<String>strs=

    2022年7月22日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号