Nutch使用方法简介

Nutch使用方法简介Nutch使用方法简介 目前Nutch采用Sehll的启动方式,如果您使用的是Windows系统,那么首先需要安装Cygwin。本文就以在Windows中为例,介绍Nutch的安装和使用方法。 (1)准备需要的软件列表   Cygwin    (下载地址:http://www.cygwin.com/setup.exe)   Jdk(1.4.2以上版本,

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

 Nutch使用方法简介

 

目前Nutch采用Sehll的启动方式,如果您使用的是Windows系统,那么首先需要安装Cygwin。本文就以在Windows中为例,介绍Nutch的安装和使用方法。

 

(1)准备需要的软件列表

 

(2) 安装软件

   

     1)  Cygwin 打开安装程序Cygwin.exe后,在”Choose Installation Type”页选择 “Install from Internet”(如果你已经把全部安装包下载到本地,就可以选择”Install from local directory”选项)。然后点击”Next”.

          然后选择安装目录,其他可保持默认选项,点击”Next”.

          选择保存安装包的本地目录,点击”Next”.

          选择下载连接的类型,点击Next。

          然后通过服务器先下在需要安装的包列表,默认全部安装,并且选择可以使用的下载镜像地址(速度不一样,如果下载速度太慢可以换别的:) )

          请耐心等待,安装程序会自动下载和安装程序包,并且保存程序包在设定的目录,这样下次安装就不必重新下载了。我安装时大约用了3分钟,下载网速大约80Kbs/s。

          完成安装。

     2) 安装JDK,这个就不用介绍了,注意安装完成后需要在Windows的环境变量中加入JAVA_HOME=你的jdk的安装目录

     3) 安装Tomcat,这个就不用多说了吧。

     4)把Nutch解压到本地目录,例如D:/nutch。这时候启动Cygwin程序,Cygwin程序会启动一个模拟Unix/Linux的终端窗口,然后使用方式就和Unix的Shell一样了,Cygwin的根目录是/cygdriver,这个目录相当于Windows的“我的电脑”,然后进入Nutch的目录,例如:cd /cygdriver/d/nutch,然后运行bin/nutch命令,如果出现下面的Usage 信息,这样Nutch就安装完成了,非常简单。

     Usage: nutch COMMAND
     where COMMAND is one of:
         crawl one-step crawler for intranets
         readdb read / dump crawl db
         mergedb merge crawldb-s, with optional filtering
         readlinkdb read / dump link db
         inject inject new urls into the database
         generate generate new segments to fetch
         fetch fetch a segment’s pages
         parse parse a segment’s pages
         readseg read / dump segment data
         mergesegs merge several segments, with optional filtering and slicing
         updatedb update crawl db from segments after fetching
         invertlinks create a linkdb from parsed segments
         mergelinkdb merge linkdb-s, with optional filtering
         index run the indexer on parsed segments and linkdb
         merge merge several segment indexes
         dedup remove duplicates from a set of segment indexes
         plugin load a plugin and run one of its classes main()
         server run a search server
     or
         CLASSNAME run the class named CLASSNAME
     Most commands print help when invoked w/o parameters.

       

 (3)开始使用Nutch

        下面用一个简单的例子说明Nutch的使用方法

        1) 添加需要爬行的内部网地址信息。

         新建一个目录,写入一些网址信息,例如我们需要爬行csdn的内部网。

             mkdir urls

             echo http://www.csdn.com/ >urls/csdn

        2) 然后修改 conf目录下的crawl-urlfilter.txt文件,这个文件中的正则表达式定义了那些文件可以被Nutch爬行,那些不可以被爬行。其中以“+”号开头的表示属于Nuch合法的Url连接,“-”号开头相反。我们需要修改文件中的

          # accept hosts in MY.DOMAIN.NAME
           +^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/

         为

        # accept hosts in MY.DOMAIN.NAME
        +^http://([a-z0-9]*/.)*csdn.com/

 

         3)接下来我们需要配置conf/nutch-site.xml,这个需要填写相关的代理属性,应为Nutch也许要准受Robot协议,在爬行人家网站的时候,把相关的信息提交给被爬行的网站。

         我们在这个文件中,需要在<configuration>和</configuration>之间,加入是个代理属性,例如http.agent.name属性       

         <property>

         <name>http.agent.name</name>

         <value>csdn.com</value>

         <description>csdn.com</description>

         </property>

        其中除了name字段需要准确添写外,其他value和descrption字段可或添写。

       同样,还需要加入http.agent.description,http.agent.url和http.agent.email这三个属性。

 

       4)这样就完成了全部爬行所需要的配置,下面就可以用nutch的crawl命令来派性企业内部网了

        再nutch目录中输入:

        bin/nutch crawl urls -dir csdn -threads 4 -depth 2 -topN 30

        这样nutch就启动并且开始爬行任务了,由于是简单示例,所以以上这个命令很快就结束了,因为爬行的广度和深度都非常小,也就是说,示例只爬行了csdn网站的很小一部分网页。

        下面就上面命令的参数进行说明:

        Crawl命令的使用说明为: crawl <url dir> [-dir index] [-threads num] [-depth num] [-topN num]

        其中:

           urls是存放需要爬行网址的文件夹目录。

           -dir选项是抓取的页面的存放目录。

           -threads选项是启动的最大线程数。

           -depth选项是能爬行的最大深度,也就是最多爬行到第几级的页面,也叫爬行深度。

           -topN选项是在每层深度上,所能爬行的最多页面数,也称爬行广度。      

        完成爬行后,会在-dir选项所指定的目录中保存网页信息和搜索需要的索引。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/215506.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 我的校园服务小程序_有创意校园的微信小程序

    我的校园服务小程序_有创意校园的微信小程序微信小程序——校园服务小程序(四)校园论坛加预约理发服务上一篇介绍了如何用户如何将帖子的内容发送到数据库中。这次我们来介绍一下如何将库中数据渲染出来,通过get得到对应表的数据,在wxml上通过for循环渲染数据表中的值。这里以我们的主页面为例,首先思考一下,一个展示帖子的主页面要有什么功能,1.帖子在添加时会将新的帖子放在最后,再渲染时也会被渲染在后面,这样是不可以的,每一次进入界面都是第一个用户上传的帖子。这里我们需要对帖子进行一次排序,这里我使用了orderBy(‘timeone’,‘d

    2022年9月20日
    0
  • 单例模式(Singleton)应用场景和优缺点

    单例模式(Singleton)应用场景和优缺点单例(Singleton)模式 也叫单态模式概述:单例(Singleton)模式要求一个类有且仅有一个实例,并且提供了一个全局的访问点。这就提出了一个问题:如何绕过常规的构造器,提供一种机制来保证一个类只有一个实例?客户程序在调用某一个类时,它是不会考虑这个类是否只能有一个实例等问题的,所以,这应该是类设计者的责任,而不是类使用者的责任。 从另一个角度来说,Singleton模式其实也是一…

    2022年6月13日
    33
  • win10的pagefile.sys是什么文件?pagefile.sys文件太大如何移动到D盘中?

    win10的pagefile.sys是什么文件?pagefile.sys文件太大如何移动到D盘中?    在C盘系统下,有一个命名为pagefile.sys的文件占用C盘太大的空间,不少用户怕删除pagefile.sys文件之后会对系统造成影响,而不少用户想要将pagefile.sys文件移动到D盘中。那么pagefile.sys是什么文件?Win10系统下pagefile.sys文件太大如何移动到D盘中?pagefile.sys是什么文件?pagefile.sys文件是操作系…

    2022年7月25日
    31
  • mysql查询记录总数_MySQL记录总条数实现查询优化「建议收藏」

    mysql查询记录总数_MySQL记录总条数实现查询优化「建议收藏」MySQL记录总条数实现查询优化发布时间:2020-05-0811:04:00来源:亿速云阅读:268作者:三月本文主要给大家介绍MySQL记录总条数实现查询优化,文章内容都是笔者用心摘选和编辑的,具有一定的针对性,对大家的参考意义还是比较大的,下面跟笔者一起了解下MySQL记录总条数实现查询优化吧。1、COUNT(*)和COUNT(COL)COUNT(*)通常是对主键进行索引扫描,而COUNT…

    2022年9月3日
    3
  • 安捷伦频谱仪的使用方法图解_安捷伦E4402B频谱仪使用说明

    安捷伦频谱仪的使用方法图解_安捷伦E4402B频谱仪使用说明标签:安捷伦仪器使用说明安捷伦仪器使用说明本资料为安捷伦频谱仪器使用说明,资料用于学习交流不能以任何形式商用。文档内容节选AgilentE4402BESAESeriesSpectrumAnalyzer使用方法简介宁波之猫2009617…

    2022年8月11日
    4
  • 软考之路(四)—软件project一 概念模型,逻辑模型,物理模型

    软考之路(四)—软件project一 概念模型,逻辑模型,物理模型

    2021年12月7日
    98

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号