Nutch使用汇总

Nutch使用汇总网上有好多的 Nutch 使用的文章 但其实只是几篇文章翻来覆去的拷贝而已 1 Nutch 初体验很经典 讲了 nutch 与 lucene 以及其他一些爬虫的比较 和建立一个抓取企业内部网 Intranetcraw 实例 但是可能是版本的问题 其中少了关键的一步 2 Tutorial 0 8 x nbsp 这里是官方的那个文档 补全了少的那一步 否则出现后果为 Fetcher se

网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!

1.Nutch 初体验

很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。

2.Tutorial (0.8.x) 

这里是官方的那个文档,补全了少的那一步。

看这个一可以解决问题

http://lucene.apache.org/nutch/tutorial8.html

3。Nutch 初体验之二

讲了一些nutch全网crawl的东西,其实这些都可以在nutch的wiki里找到!就是那里是英文,不太舒服!这个文章挺不错得!

4。Nutch在Windows中安装之细解

主要是说Cygwin的安装,Cygwin是个挺好的东西,建议大家即使不用Nutch也装一个,因为用bash确实很爽!

5。nutch中文分词

http://www.rxiao.com/blog/article.asp?id=138

6。Nutch 使用之锋芒初试

基本上是和Nutch 初体验之二一样的内容。

7.试用nutch

http://hedong.3322.org/archives/000247.html

这个太老了,好像多不太适用了。

8。Nutch9.0 的lucene好像有问题,要重新编译,本人没有测试。

 

个人观点:结合我的项目这个东西不适合我。理由是:

nutch是一个完整的搜索引擎,但是它只是一个搜索引擎他可以订制的东西太少!例如加中文分词好像要改动源文件,这样做对以后的升级维护都是麻烦。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233877.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mysql左连接和右连接_MYSQL 左连接与右连接

    mysql左连接和右连接_MYSQL 左连接与右连接一、LEFTJOINLEFTJOIN关键字从左表(table1)返回所有的行,即使右表(table2)中没有匹配。如果右表中没有匹配,则结果为NULL。语法:SELECTcolumn_name(s)FROMtable1LEFTJOINtable2ONtable1.column_name=table2.column_name;举例:下面是选自”Websites”表的数据:下面…

    2022年6月4日
    33
  • phpstorm 2021.5.2 激活码【在线注册码/序列号/破解码】「建议收藏」

    phpstorm 2021.5.2 激活码【在线注册码/序列号/破解码】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月17日
    50
  • Jenkins安装_jenkins sonar

    Jenkins安装_jenkins sonar前言jenkins的环境搭建方法有很多,本篇使用docker快速搭建一个jenkins环境。环境准备:mac/Linuxdockerdocker拉去jenkins镜像先下载jenkins镜

    2022年7月28日
    20
  • URI和URL的区别比较与理解[通俗易懂]

    URI和URL的区别比较与理解[通俗易懂]一、URI<1>什么是URIURI,通一资源标志符(UniformResourceIdentifier,URI),表示的是web上每一种可用的资源,如HTML文档、图像、视频片段、程序等都由一个URI进行定位的。<2>URI的结构组成URI通常由三部分组成:①访问资源的命名机制;②存放资源的主机名;③资源自身的名称。<3>…

    2022年7月27日
    5
  • Java 反射 -超详细讲解(附源码)「建议收藏」

    Java 反射 -超详细讲解(附源码)「建议收藏」&amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;nbsp;之前也有学习过反射,可是很快就忘了,也不知道有什么用,怎么用,故特此写下此文,以加深对java反射的理解1:反射概述&amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;nbsp;JAVA反射机制是在运行状态中1,对于任意一个类,都

    2022年6月2日
    34
  • 新手小白学JAVA 正则表达式 包装类 自动装箱/自动拆箱 BigDecimal

    新手小白学JAVA 正则表达式 包装类 自动装箱/自动拆箱 BigDecimal1正则表达式Regex1.1概述正确的字符串格式规则。常用来判断用户输入的内容是否符合格式的要求,注意是严格区分大小写的。1.2常见语法1.3String提供了支持正则表达式的方法Matches(正则):当前字符串能否匹配正则表达式replaceAll(正则,子串):替换子串split(正则):拆分字符串1.4练习:测试输入身份证号创建包:cn.tedu.api创建类:TestRegex.javapackagecn.tedu.api;impo

    2022年5月2日
    40

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号