webmagic ajax,webmagic 爬虫 分页

webmagic ajax,webmagic 爬虫 分页importus codecraft webmagic Page importus codecraft webmagic Site importus codecraft webmagic Spider importus codecraft webmagic processor PageProcesso importus codecraft webmagic selector JsonP

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

import us.codecraft.webmagic.selector.JsonPathSelector;

import us.codecraft.webmagic.selector.Selectors;

import java.util.List;

/

* @author 

* @since 0.5.0

*/

public class YidianzixunProcessor implements PageProcessor {

private Site site = Site.me();

// . ? 等特殊符号需要加\\引用符

private static final String ARTICLE_URL = “http://www\\.yidianzixun\\.com/home\\?page=article&id=\\w+”;

public void process(Page page) {

if (page.getUrl().regex(ARTICLE_URL).match()) {

String content = page.getHtml().xpath(“//div[@class=’content’]”).toString();

//1)文章头部:1、标题、2、发表时间、3、文章来源

String content_hd = Selectors.xpath(“//div[@class=’content-hd’]”).select(content);

String title = Selectors.xpath(“//h2/text()”).select(content_hd);

String date =  Selectors.xpath(“//div[@class=’meta’]/span[@class=’date’]/text()”).select(content_hd);

String source = Selectors.xpath(“//a[@id=’source-name’]/text()/text()”).select(content_hd);

//2)文章主题

String body = Selectors.xpath(“//div[@class=’content-bd’]”).select(content);

System.out.println(body);

} else {

List results = new JsonPathSelector(“$.result[*]”).selectList(page.getRawText());

for(String result:results){

// /home?page=article&id={
{docid}}&up={
{up}}#comment

// /home?page=article&id={
{docid}} 也是可以支持

String docid = new JsonPathSelector(“docid”).select(result);

String targetUrl = “http://www.yidianzixun.com/home?page=article&id=”+docid;

page.addTargetRequest(targetUrl);

}

}

}

public Site getSite() {

return site;

}

public static void main(String[] args) {

// url的特殊符号 ‘|’ : %7C

//通过ajax判断请求的参数

String targetUrl = “http://www.yidianzixun.com/api/q/?path=channel%7Cnews-list-for-keyword&display=%E8%8A%B1%E8%8C%B6&word_type=token&fields=docid&fields=category&fields=date&fields=image&fields=image_urls&fields=like&fields=source&fields=title&fields=url&fields=comment_count&fields=summary&fields=up&cstart=10&cend=20&version=&infinite=true”;

Spider.create(new YidianzixunProcessor()).addUrl(targetUrl).thread(5).run();

}

}

相关的包

us.codecraft

webmagic-core

0.5.3

us.codecraft

webmagic-extension

0.5.3

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233105.html原文链接:https://javaforall.net

(0)
上一篇 2025年8月15日 上午11:01
下一篇 2025年8月15日 上午11:22


相关推荐

  • NPS监控体系详解

    NPS监控体系详解1.NPS监控原理及意义原理:通过定期调研市场用户的净推荐值,牵引质量在具体领域的改进;优势:践行绝对的用户导向将品牌影响力、产品销量、市场份额与历史数据表现联系起来2.NPS数据回收以手机产品为例,从用户使用产品之日起的整个使用体验周期分三次发送调研问卷:首月,6月,18月;3.NPS监控指标体系NPS:产品NPSNPS1,NPS2,NPS3:按生命周期阶段分NPS1,NPS2,NPS3δNPS:阶段差值为δNPS=NPSM-NPS1领域NPSM关注度好评率差评率**用户

    2022年6月2日
    68
  • element table_elementuos8

    element table_elementuos81、后台返回数据类型若有数组2、页面部分<el-table-columnalign="center"prop="idCard"label="身份证号"width="250"></el-table-column><el-table-columnalign="center"label="职务"width

    2025年9月23日
    9
  • 数据库索引的作用和长处缺点

    数据库索引的作用和长处缺点

    2021年11月29日
    50
  • java 排序队列_java实现顺序队列

    java 排序队列_java实现顺序队列packagequeue;importjava.util.Scanner;publicclassArrayQueueLoop{publicstaticvoidmain(String[]args){//TODOAuto-generatedmethodstub//测试代码//测试数组循化队列CircleQueuetestQueue=newCircleQueue(4);//设置的是有效…

    2022年7月16日
    19
  • oracle 递归常用函数,Oracle递归函数

    oracle 递归常用函数,Oracle递归函数Oracle 递归函数 CREATEORREPL TYPETREEVIEW ID ITEMNO ITEMNOSUB GROUPID MEMO TREE AS 2007 01 2316 51XieShaoHua 递归查询 SELECTtypetr ID typetree itemno typetree itemnosub typet

    2026年3月20日
    1
  • 科大讯飞发布星火X1.5

    科大讯飞发布星火X1.5

    2026年3月14日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号