前嗅ForeSpider教程:抽取数据

前嗅ForeSpider教程:抽取数据

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下:

一,如何选择表单

在ForeSpider爬虫中,表单是可以复用的表结构,建好的表单可以重复用于多个任务。

数据表选择页

clipboard.png

1.选择表单

方法一:通过下拉菜单,或填写表单ID,选择已有表单。
方法二:快速建表,点击创建表单,进入快速建表页面,新建表单。(>>详见快速建表)
方法三:自由建表,点击“采集配置”-“数据建表”,点击采“采集表单”后面的。(>>详见自由建表)

数据建表页

clipboard.png

2.数据存储方式

指的是数据采集时,在数据库里的存储方式。
①插入:默认为插入。如遇到数据库中已存在的重复数据,则不再插入。
②仅更新:如遇到数据库中已存在的重复数据,则用最新采集的数据覆盖掉。
③追加:如字段的属性是运算字段,则可以进行字段运算。
④插入并更新:没有重复的记录则插入,有重复记录则更新。

二,如何采集列表/表格数据

识别列表用于存储表格/列表的数据,将表格/列表的不同列对应存入不同字段,表格/列表的不同行分别存储为数据表的多条记录。以前嗅官网Web服务器(http://www.forenose.com/panne…)为例。

1.创建表单

根据表格内容,创建一个存储表格数据的表单。在选项卡“数据建表”中,创建一个表单。(>>自由建表)

识别列表的表结构

clipboard.png

(1)主键
采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“网页主键”。
表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)

主键字段的配置

clipboard.png

(2)其他字段
其他字段的变量类型选择“string”,取值类型选择“选区内全部文本”。(>>字段参数)

其他字段的配置

clipboard.png

2.创建数据抽取

为数据抽取选择表单

选择表单

clipboard.png

3.识别多值

点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。

定位表格

clipboard.png

点击“识别多值”,选区扩大到整个表格。点击“确认选区”。

确认多值

图片描述

4.字段取值

主键字段不需要配置。存储表格内容的字段需要一一取值。(方法一:标准定位/方法二:特征定位)
点击数据抽取的字段,为其一一配置表格不同列的数据。点击相应字段,按Ctrl点击第一列的任意单元格,点击“保存”。

多值字段取值

clipboard.png

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/101092.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • executorservice线程池建立_线程池 threadlocal

    executorservice线程池建立_线程池 threadlocalExecutorService建立多线程的步骤:1。定义线程类classHandlerimplementsRunnable{}2。建立ExecutorService线程池ExecutorServiceexecutorService=Executors.newCachedThreadPool();或者intc

    2025年10月23日
    2
  • 卷积操作的参数量和FLOPs

    卷积操作的参数量和FLOPs卷积操作的参数量和FLOPs  这里首先需要辨析一个概念就是FLOPs和FLOPS可以看到简写的差别仅仅是一个字母大小写的区别。  FLOPS(floating-pointoperationspersecond),这个缩写长这个样子确实也很奇怪,大致概念就是指每秒浮点数运算次数,最后一个S是秒(second)的缩写,是计组中的概念,用来描述计算机的运算速度。  FLOPs(floati…

    2022年5月27日
    28
  • 字幕文件srt格式解析

    字幕文件srt格式解析解析srt文件,封装为list返回首先新建个class,表示单个字幕数据的实体类publicclassSrtEntity{/***字幕序号*/publicintnumber;/***开始时间*/publicStringbg;/***结束时间*/publicStringed;/***字幕内容*/publ

    2025年8月23日
    2
  • __cplusplus、extern “C”关键字

    __cplusplus、extern “C”关键字   我们在阅读程序时,经常会见到__cplusplus关键字,比如下面的代码:#ifdef__cplusplusextern"C"{#endifvoid*memset(void*,int,size_t);#ifdef__cplusplus}#endif  这里面,两种关键字,都是为了实现C++与C兼容的,extern“C”是用来在C++程序中声明或…

    2025年7月29日
    2
  • centos7 command not found_centos7 failed to start LSB

    centos7 command not found_centos7 failed to start LSB在进行CentOS最小化安装后,会发现lspci命令不好使。其实是因为相应的软件包没有安装。在终端中执行下列命令:$yumwhatprovides*/lspci将会得到如下的显示内容pciutils-3.1.4-9.el6.x86_64:PCIbusrelatedutilitiesRepo:baseMatchedfrom:Filename…

    2025年10月15日
    3
  • 防止ASP Session丢失的方法[通俗易懂]

    防止ASP Session丢失的方法[通俗易懂]也许很多asp开发者都会遇到这样的情况:在会话期间(session)无故丢失session。换而言之,丢失了SessionID,同样session级的变量也会丢失。很多session丢失的原因是因为错误的程序或者是错误的虚拟目录结构。 SessionID的改变有下面几个原因。 原因一: Netscape的浏览器会认为”/App/user.asp”跟”/app/u

    2022年7月25日
    12

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号