nutch使用入门

全栈程序员-站长 • 2026年3月17日下午10:07 • 未分类 • 阅读 2

nutch使用入门基本概念 nbsp nbsp crawldb nutch 所处理的所有 url 信息包括是否被 fetch 过以及 url 被 fetch 时间 nbsp nbsp linkdb urllinks 包括源 url 和链接文本信息 nbsp nbsp segments 集合每一个 segment 是一组 fetched 的 urls 单元 segments 包括以下子目录 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp 1 crawl generate 将要被抓取 urls

基本概念：

crawldb，nutch所处理的所有url信息，包括是否被fetch过，以及url被fetch时间。
linkdb，url links，包括源url和链接文本信息
segments集合，每一个segment是一组fetched的urls单元，segments包括以下子目录：

1. crawl_generate, 将要被抓取 urls集合

2. crawl_fetch, 正在被抓取的每一个url的状态信息

3. content，从每一个url中提取的原生内容

4. parse_text, 从每一个url中解析出来的文本信息

5. parse_date, 从每一个url中解析出来的链接和元数据

6. crawl_parse, 从url中解析出来的url链接，用于更新crawldb

分布执行步骤：

注入爬取所需种子列表，bin/nutch inject crawl/crawldb urls
从crawldb中生成要抓取的url列表，bin/nutch generate crawl/crawldb crawl/segments
根据url抓取网页，bin/nutch fetch data/segments/5
解析网页内容，bin/nutch parse data/segments/5
根据抓取结果更新数据库，bin/nutch updated data/crawldb –dir data/segments/5
反转索引，在建立索引之前，我们首先对所有的链接进行反转，这样我们才可以对页面的来源锚文本进行索引。
```
bin/nutch invertlinks data/linkdb –dir data/segments/5
```

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/219689.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

gmt转换北京时间 java_GMT时间与北京时间的转换

上一篇 2026年3月17日下午10:07

数值分析（二续）三次样条插值二类边界完整matlab代码

下一篇 2026年3月17日下午10:07

列表中字符串按照某种规则排序的方法（python）

列表中字符串按照某种规则排序的方法（python）

全栈程序员-站长
2021年11月19日
63
线程的停止与暂停

线程的停止与暂停1.停止线程停止线程不像停止一个循环break一样干脆。停止一个线程意味着在线程处理完任务之前停掉正在做的操作，也就是放弃当前的操作。虽然看起来简单，但是必须做好正确的防范措施，以便达到预期的效果

全栈程序员-站长
2022年7月2日
26
9 个必须知道的实用 PHP 函数和功能 [转]

9 个必须知道的实用 PHP 函数和功能 [转]

全栈程序员-站长
2021年10月18日
39
android 中string.xml中的%1$s

android 中string.xml中的%1$s

全栈程序员-站长
2021年9月11日
51
EPPlus 使用小结

EPPlus 使用小结文章目录简介导入导出简单导出样式格式化其他总结简介EPPlus是一个使用OpenOfficeXML(xlsx)文件格式，能读写Excel2007/2010文件的开源组件，在导出Excel的时候不需要电脑上安装office，它的一个缺点就是不支持导出2003版的Excel(xls)。导入这部分相对简单，直接看下代码：using(ExcelPackagepackage=newExcelPackage(existingFile)){ExcelWorksheetworksh

全栈程序员-站长
2022年6月15日
757
docker

ubuntu安装教程_ubuntu docker安装

ubuntu安装教程_ubuntu docker安装卸载docker1.删除某软件,及其安装时自动安装的所有包sudoapt-getautoremovedockerdocker-cedocker-enginedocker.iocontainerdrunc2.删除docker其他没有没有卸载dpkg-l|grepdockerdpkg-l|grep^rc|awk'{print$2}’|sudoxargsdpkg-P#删除无用的相关的配置文件3.卸载没有删除的docker相关插件(…

全栈程序员-站长
2022年8月30日
6

发表回复

关注全栈程序员社区公众号