网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!
1.Nutch 初体验
很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。
2.Tutorial (0.8.x)
这里是官方的那个文档,补全了少的那一步。
看这个一可以解决问题
http://lucene.apache.org/nutch/tutorial8.html
3。Nutch 初体验之二
讲了一些nutch全网crawl的东西,其实这些都可以在nutch的wiki里找到!就是那里是英文,不太舒服!这个文章挺不错得!
4。Nutch在Windows中安装之细解
主要是说Cygwin的安装,Cygwin是个挺好的东西,建议大家即使不用Nutch也装一个,因为用bash确实很爽!
5。nutch中文分词
http://www.rxiao.com/blog/article.asp?id=138
6。Nutch 使用之锋芒初试
基本上是和Nutch 初体验之二一样的内容。
7.试用nutch
http://hedong.3322.org/archives/000247.html
这个太老了,好像多不太适用了。
8。Nutch9.0 的lucene好像有问题,要重新编译,本人没有测试。
个人观点:结合我的项目这个东西不适合我。理由是:
nutch是一个完整的搜索引擎,但是它只是一个搜索引擎他可以订制的东西太少!例如加中文分词好像要改动源文件,这样做对以后的升级维护都是麻烦。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233877.html原文链接:https://javaforall.net