Nutch
在bin文件夹下存放的是用于命令行运行的文件;Nutch的配置文件都放在了conf下,lib是一些运行所需要的jar文件;plugins下存放的相应的插件;在src文件夹中的是Nutch的所有源文件;webapps文件夹中存放的是web运行相关文件;nutch-0.9.war是
1.
2.
3.
4.
5.
6.
(1)准备需要的软件列表
(2)安装软件
(3)使用Nutch
Nutch
•
•
和
http.agent.name
nutch-1.2
csdn.com
view
xml version =“1.0” ?>
xml-stylesheet type =“text/xsl” href =“configuration.xsl” ?>
- <
configuration > - <
property > -
< name > http.agent.name
name > -
< value > nutch-1.2
value > -
< description > tjt
description >
property > - <
property > -
< name > http.robots.403.allow
name > -
< value > true
value > -
< description >
description >
property > - <
property > -
< name > http.agent.description
name > -
< value > tjtnutchhoho
value > -
< description >
description >
property > - <
property > -
< name > http.agent.url
name > -
< value > http://ucooper.com
value > -
< description >
description >
property > - <
property > -
< name > http.agent.email
name > -
< value >
value > -
< description >
description >
property > - <
property > -
< name > http.agent.version
name > -
< value > Nutch-1.2
value > -
< description >
description >
property >
- <
property > - <
name > searcher.dir
name > - <
value > E:/nutch/csdn
value > - <
description >
description >
property >
configuration >
这里的设置,是因为nutch遵守了
dir>
默认情况下不支持对pdf文件的索引,要想对pdf文件也进行正确的索上,找到nutch-default.xml中的 Arial”>plugin.includes属性,添加上pdf,即为parse-(text|html|js|pdf)。
爬行结果目录含有segment,
WebDB内存储了两种实体的信息:page和link。Page实体通过描述网络上一个网页的特征信息来表征一个实际的网页,因为网页有很多个需要描述,WebDB中通过网页的URL和网页内容的MD5两种索引方法对这些网页实体进行了索引。Page实体描述的网页特征主要包括网页内的link数目,抓取此网页的时间等相关抓取信息,对此网页的重要度评分等。同样的,Link实体描述的是两个page实体之间的链接关系。WebDB构成了一个所抓取网页的链接结构图,这个图中Page实体是图的结点,而Link实体则代表图的边。
在Nutch中,Crawler操作的实现是通过一系列子操作的实现来完成的。这些子操作Nutch都提供了子命令行可以单独进行调用。下面就是这些子操作的功能描述以及命令行,命令行在括号中。
1)
2)
3)
4)
5)
6)
7)
8)
9)
10)
11)
12)
13)
其中,1~6属于爬虫部分;7、10
在创建一个WebDB之后,
在
view