Nutch使用汇总

Nutch使用汇总网上有好多的 Nutch 使用的文章 但其实只是几篇文章翻来覆去的拷贝而已 1 Nutch 初体验很经典 讲了 nutch 与 lucene 以及其他一些爬虫的比较 和建立一个抓取企业内部网 Intranetcraw 实例 但是可能是版本的问题 其中少了关键的一步 2 Tutorial 0 8 x nbsp 这里是官方的那个文档 补全了少的那一步 否则出现后果为 Fetcher se

网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!

1.Nutch 初体验

很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。

2.Tutorial (0.8.x) 

这里是官方的那个文档,补全了少的那一步。

看这个一可以解决问题

http://lucene.apache.org/nutch/tutorial8.html

3。Nutch 初体验之二

讲了一些nutch全网crawl的东西,其实这些都可以在nutch的wiki里找到!就是那里是英文,不太舒服!这个文章挺不错得!

4。Nutch在Windows中安装之细解

主要是说Cygwin的安装,Cygwin是个挺好的东西,建议大家即使不用Nutch也装一个,因为用bash确实很爽!

5。nutch中文分词

http://www.rxiao.com/blog/article.asp?id=138

6。Nutch 使用之锋芒初试

基本上是和Nutch 初体验之二一样的内容。

7.试用nutch

http://hedong.3322.org/archives/000247.html

这个太老了,好像多不太适用了。

8。Nutch9.0 的lucene好像有问题,要重新编译,本人没有测试。

 

个人观点:结合我的项目这个东西不适合我。理由是:

nutch是一个完整的搜索引擎,但是它只是一个搜索引擎他可以订制的东西太少!例如加中文分词好像要改动源文件,这样做对以后的升级维护都是麻烦。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233877.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 石化业高质量发展看广东 恒力石化、东华能源、茂名天源石化等项目开工[通俗易懂]

    石化业高质量发展看广东 恒力石化、东华能源、茂名天源石化等项目开工[通俗易懂]目前来看,广东省已经拥有诸多国外化工巨头、大型民营炼化企业和不少国企的炼化项目,成为很多石化企业首选的项目落地基地。“石化业高质量发展看广东”,已经逐渐明朗。今年3月31日,广东省发展改革委官网公布《广东省2021年重点建设项目计划》。在2021年重点项目名单中,广东共安排省重点项目1395个,总投资达7.28万亿元,年度计划投资8000亿元。其中新开工项目有3个,总投资约267亿元,年度投资约60.5亿元,分别是恒力石化(惠州)PTA项目、东华能源(茂名)烷烃资源综合利用项目(一期

    2022年10月13日
    2
  • 华为模拟器ensp怎么安装_华为模拟器怎么安装

    华为模拟器ensp怎么安装_华为模拟器怎么安装简单介绍一下eNSP:eNSP是一款由华为提供的免费的图形化网络仿真工具平台,它将完美呈现真实设备实景(包括华为最新的ARG3路由器和X7系列的交换机),支持大型网络模拟,让你有机会在没有真实设备

    2022年8月2日
    6
  • CSS选择器及优先级 总结

    CSS选择器及优先级 总结一、优先级不同级别在属性后面使用!important会覆盖页面内任何位置定义的元素样式。作为style属性写在元素内的样式id选择器类选择器元素选择器通配符选择器浏览器自定义或继承总结排序:!important>行内样式>ID选择器>类选择器>元素>通配符>继承&a

    2022年7月27日
    6
  • 匹配滤波(四种滤波器的幅频特性)

    匹配滤波(matchedfiltering)是最佳滤波的一种。当输入信号具有某一特殊波形时,其输出达到最大。在形式上,一个匹配滤波器由以按时间反序排列的输入信号构成。且滤波器的振幅特性与信号的振幅谱一致。因此,对信号的匹配滤波相当于对信号进行自相关运算。配滤波器是一种非常重要的滤波器,广泛应用与通信、雷达等系统中。从上面的理论推导可以看到,当输出信噪比为最大值的时候,滤波器的传递函数与输入信号的频谱函数满足特定的关系,式2.10就反映了这个关系。满足这种关系的线性滤波器,称之为匹配滤波…

    2022年4月18日
    109
  • leangoo的项目成员及权限说明?

    leangoo的项目成员及权限说明?

    2021年9月16日
    46
  • Spring boot 使用Jasypt加密用户名密码

    Spring boot 使用Jasypt加密用户名密码

    2021年5月15日
    133

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号