Nutch使用汇总

Nutch使用汇总网上有好多的 Nutch 使用的文章 但其实只是几篇文章翻来覆去的拷贝而已 1 Nutch 初体验很经典 讲了 nutch 与 lucene 以及其他一些爬虫的比较 和建立一个抓取企业内部网 Intranetcraw 实例 但是可能是版本的问题 其中少了关键的一步 2 Tutorial 0 8 x nbsp 这里是官方的那个文档 补全了少的那一步 否则出现后果为 Fetcher se

网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!

1.Nutch 初体验

很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。

2.Tutorial (0.8.x) 

这里是官方的那个文档,补全了少的那一步。

看这个一可以解决问题

http://lucene.apache.org/nutch/tutorial8.html

3。Nutch 初体验之二

讲了一些nutch全网crawl的东西,其实这些都可以在nutch的wiki里找到!就是那里是英文,不太舒服!这个文章挺不错得!

4。Nutch在Windows中安装之细解

主要是说Cygwin的安装,Cygwin是个挺好的东西,建议大家即使不用Nutch也装一个,因为用bash确实很爽!

5。nutch中文分词

http://www.rxiao.com/blog/article.asp?id=138

6。Nutch 使用之锋芒初试

基本上是和Nutch 初体验之二一样的内容。

7.试用nutch

http://hedong.3322.org/archives/000247.html

这个太老了,好像多不太适用了。

8。Nutch9.0 的lucene好像有问题,要重新编译,本人没有测试。

 

个人观点:结合我的项目这个东西不适合我。理由是:

nutch是一个完整的搜索引擎,但是它只是一个搜索引擎他可以订制的东西太少!例如加中文分词好像要改动源文件,这样做对以后的升级维护都是麻烦。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233877.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 电商后台管理系统技术总结(黑马)[通俗易懂]

    电商后台管理系统技术总结(黑马)[通俗易懂]一. 项目介绍此项目主要是一个电商的后台管理系统,主要是由六个大的模块组成分别为开发过程中使用Vuecil4脚手架进行开发,然后主要通过elementUI美化项目结构,使用码云作为Git管理仓库,对应的API文档,采用express搭建的API服务,返回的数据是JSON格式的数据二.项目依赖Vue+VueRouter+Element-UI和Axios以及Echarts:三.各页面总结1.登录和退出(axios引入、拦截器、导航守卫)登录:获取用户表单信息,主要使

    2022年5月26日
    52
  • EM算法 实例讲解「建议收藏」

    EM算法 实例讲解「建议收藏」第一次接触EM算法,是在完成半隐马尔科夫算法大作业时。我先在网上下载了两份Baum-Welch算法的代码,通过复制粘贴,修修补补,用java实现了HMM算法(应用是韦小宝掷两种骰子的问题)。然后,参考有关半隐马尔科夫算法的论文,照着论文中的公式修改隐马尔科夫算法,完成了大作业。现在回想起来,就隐隐约约记得有一大堆公式。最近,我看到一篇很好的文章,对EM算法的计算有了进一步的了解,文章链接为http

    2022年6月22日
    27
  • Windows下卸载TensorFlow

    Windows下卸载TensorFlow激活tensorflow:activatetensorflow 输入:pipuninstalltensorflow Proceed(y/n):y如果是gpu版本:激活tensorflow:activatetensorflow-gpu 输入:pipuninstalltensorflow-gpu Proceed(y/n):y  …

    2022年6月22日
    30
  • UDP发送大型文件_不丢包[通俗易懂]

    UDP发送大型文件_不丢包[通俗易懂]先上图1:如果对文件要求不高的话,可以使用UDP,UDP在实际测试中,丢包还是听验证的,但是效率高2:如果文件必须完整,还是使用TCP。Socket进行文件传输,比较稳妥近期的项目中要是用软件升级,系统文件有600M。一般的程序员会说,下载吗,直接下载安装就好了,我也是这样想的,素不知线下的网络的环境有多差,当时一个业务员和我说,要是能实现手机发送文件给设备就好了,毕竟大家都是用手机…

    2022年7月11日
    82
  • 【大数据应用开发】大数据的概念[通俗易懂]

    【大数据应用开发】大数据的概念[通俗易懂]一.大数据的概念维基百科定义:大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。二.大数据4V特征Volume:体量巨大Velocity:处理速度快Variety:类型繁多(结构化,半结构化,非结构化)Value:价值密度低三.大数据主流技术数据采集预处理flume可以进行流式日志数据的收集sqoop可以交互关系型数据库,进行导入导…

    2022年6月4日
    41
  • 推荐下载使用:金山词霸2009官方牛津版 + 激活成功教程补丁

    推荐下载使用:金山词霸2009官方牛津版 + 激活成功教程补丁2008-03-2909:04推荐下载使用:金山词霸2009官方牛津版+激活成功教程补丁《金山词霸2009牛津版》收词总量5,000,000,例句2,000,000余条,涉及语种包括中、日、英、韩

    2022年7月1日
    33

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号