nutch使用

nutch使用nutch1 x nutch1 11 为例 抓取网页存储到本地 bin crawlurlscra 建索引 bin nutchsolrind 127 0 0 1 8983 solr crawl crawldb linkdbcrawl linkdbcrawl segments nutch2 x nutch2 2 1 为例 mysqlmy ini 或 my c

nutch 1.x (nutch 1.11为例)

抓取网页存储到本地

bin/crawl urls crawl 2

建索引

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

nutch 2.x (nutch 2.2.1为例)

mysql

my.ini或my.cnf中修改编码:

[mysqld] character-set-server=utf8 [client]、[mysql] default-character-set=utf8

数据表字段映射在gora-sql-mapping.xml中配置。

配置ivy对mysql的支持,在ivy/ivy.xml中配置

<dependency org=”mysql” name=”mysql-connector-java” rev=”5.1.18″ conf=”*->default”/> <dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/> <dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

配置nutch数据连接设置gora.properties

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true gora.sqlstore.jdbc.user=xxxx(MySQL用户名) gora.sqlstore.jdbc.password=xxxx(MySQL密码)
<property> <name>storage.data.store.class 
  name> 
  
    org.apache.gora.sql.store.SqlStore 
   
  
    The Gora DataStore 
   class 
   for storing 
   and retrieving data. Currently 
   the following stores are available:. 
   
  property> <property> <name>generate.batch.id 
  name> 
  
    * 
   
  property

然后设置爬取网站。

执行爬取操作,爬取数据到数据库

bin/nutch crawl urls -depth 3 -topN 5

solr

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/200031.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月20日 上午11:40
下一篇 2026年3月20日 上午11:40


相关推荐

  • 抓包神器之Charles,常用功能都在这里了[通俗易懂]

    抓包神器之Charles,常用功能都在这里了[通俗易懂]我们在开发网站项目的时候,我们可以通过浏览器的debug模式来看request以及response的数据,那么如果我们开发移动端项目没有网页呢?如何抓取数据呢?前几天有个做服务端的师弟跟我说他不用抓包工具,遇到问题直接debug代码,那我问他,如果线上服务的话,你怎么调?在实际项目中,没有遇到跟客户端相互扯皮的事情吗?我觉得很正常啊,客户端说他没问题,服务端也说他没问题,到…

    2022年4月30日
    138
  • pstree 详解

    pstree 详解pstree 命令是用于查看进程树之间的关系 即哪个进程是父进程 哪个是子进程 可以清楚的看出来是谁创建了谁 pstree 几个重要的参数 A 各进程树之间的连接以 ASCII 码字符来连接 U 各进程树之间的连接以 utf8 字符来连接 某些终端可能会有错误 p 同时列出每个进程的 PID u 同时列出每个进程的所属账号名称 例子 pstree upsystemd 1 agetty 2021 agetty 2022 bash 23

    2026年3月19日
    2
  • 某次心血来潮的破解案例

    某次心血来潮的破解案例背景前面遇到一个so解密的问题,学习了一波IDA。无聊之际,买了个游戏来耍耍,突发奇想,想着尝试一些花里胡哨的东西,于是有了以下内容。逻辑分析与实现寻找对应代码实现dl

    2021年12月13日
    69
  • 基于Chrome浏览器的HackBar_v2.2.6插件的安装与注册「建议收藏」

    基于Chrome浏览器的HackBar_v2.2.6插件的安装与注册「建议收藏」Hackbar是一款基于浏览器的简单的安全审计或者说是渗透测试工具,能够帮助您测试sql注入,XSS漏洞和站点安全性,帮助开发人员对其代码进行安全审计。本篇博客介绍的是基于Chrome浏览器的hackbar插件的安装与注册,在Firebox浏览器与Chrome浏览器上的安装类似,对在firebox的安装本篇博客不再做说明。 HackBar_v2.2.6下载和安装 1、打开Chrome…

    2022年6月1日
    286
  • Trae类AI插件生成代码时为何常出现逻辑错误或上下文丢失?

    Trae类AI插件生成代码时为何常出现逻辑错误或上下文丢失?

    2026年3月15日
    2
  • 二叉搜索树,超强实用讲解

    二叉搜索树,超强实用讲解

    2021年9月28日
    46

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号