nutch使用

全栈程序员-站长 • 2026年3月20日上午11:40 • 未分类 • 阅读 2

nutch使用nutch1 x nutch1 11 为例抓取网页存储到本地 bin crawlurlscra 建索引 bin nutchsolrind 127 0 0 1 8983 solr crawl crawldb linkdbcrawl linkdbcrawl segments nutch2 x nutch2 2 1 为例 mysqlmy ini 或 my c

nutch 1.x (nutch 1.11为例)

抓取网页存储到本地

bin/crawl urls crawl 2

建索引

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

nutch 2.x (nutch 2.2.1为例)

mysql

my.ini或my.cnf中修改编码:

[mysqld] character-set-server=utf8 [client]、[mysql] default-character-set=utf8

数据表字段映射在gora-sql-mapping.xml中配置。

配置ivy对mysql的支持,在ivy/ivy.xml中配置

<dependency org=”mysql” name=”mysql-connector-java” rev=”5.1.18″ conf=”*->default”/> <dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/> <dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

配置nutch数据连接设置gora.properties

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true gora.sqlstore.jdbc.user=xxxx（MySQL用户名） gora.sqlstore.jdbc.password=xxxx（MySQL密码）

<property> <name>storage.data.store.class 
  name> 
  
    org.apache.gora.sql.store.SqlStore 
   
  
    The Gora DataStore 
   class 
   for storing 
   and retrieving data. Currently 
   the following stores are available:. 
   
  property> <property> <name>generate.batch.id 
  name> 
  
    * 
   
  property

然后设置爬取网站。

执行爬取操作，爬取数据到数据库

bin/nutch crawl urls -depth 3 -topN 5

solr

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/200031.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

设置VirtualBox共享文件夹的方法

上一篇 2026年3月20日上午11:40

工作流引擎Activiti详解

下一篇 2026年3月20日上午11:40

抓包神器之Charles，常用功能都在这里了[通俗易懂]

抓包神器之Charles，常用功能都在这里了[通俗易懂]我们在开发网站项目的时候，我们可以通过浏览器的debug模式来看request以及response的数据，那么如果我们开发移动端项目没有网页呢？如何抓取数据呢？前几天有个做服务端的师弟跟我说他不用抓包工具，遇到问题直接debug代码，那我问他，如果线上服务的话，你怎么调？在实际项目中，没有遇到跟客户端相互扯皮的事情吗？我觉得很正常啊，客户端说他没问题，服务端也说他没问题，到…

全栈程序员-站长
2022年4月30日
138
pstree 详解

pstree 详解pstree 命令是用于查看进程树之间的关系即哪个进程是父进程哪个是子进程可以清楚的看出来是谁创建了谁 pstree 几个重要的参数 A 各进程树之间的连接以 ASCII 码字符来连接 U 各进程树之间的连接以 utf8 字符来连接某些终端可能会有错误 p 同时列出每个进程的 PID u 同时列出每个进程的所属账号名称例子 pstree upsystemd 1 agetty 2021 agetty 2022 bash 23

全栈程序员-站长
2026年3月19日
2
某次心血来潮的破解案例

某次心血来潮的破解案例背景前面遇到一个so解密的问题，学习了一波IDA。无聊之际，买了个游戏来耍耍，突发奇想，想着尝试一些花里胡哨的东西，于是有了以下内容。逻辑分析与实现寻找对应代码实现dl

全栈程序员-站长
2021年12月13日
69
基于Chrome浏览器的HackBar_v2.2.6插件的安装与注册「建议收藏」

基于Chrome浏览器的HackBar_v2.2.6插件的安装与注册「建议收藏」Hackbar是一款基于浏览器的简单的安全审计或者说是渗透测试工具，能够帮助您测试sql注入，XSS漏洞和站点安全性，帮助开发人员对其代码进行安全审计。本篇博客介绍的是基于Chrome浏览器的hackbar插件的安装与注册，在Firebox浏览器与Chrome浏览器上的安装类似，对在firebox的安装本篇博客不再做说明。 HackBar_v2.2.6下载和安装 1、打开Chrome…

全栈程序员-站长
2022年6月1日
286
cursor

Trae类AI插件生成代码时为何常出现逻辑错误或上下文丢失？

Trae类AI插件生成代码时为何常出现逻辑错误或上下文丢失？

全栈程序员-站长
2026年3月15日
2
二叉搜索树，超强实用讲解

二叉搜索树，超强实用讲解

全栈程序员-站长
2021年9月28日
46

发表回复

关注全栈程序员社区公众号