前嗅ForeSpider教程:抽取数据

前嗅ForeSpider教程:抽取数据

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下:

一,如何选择表单

在ForeSpider爬虫中,表单是可以复用的表结构,建好的表单可以重复用于多个任务。

数据表选择页

clipboard.png

1.选择表单

方法一:通过下拉菜单,或填写表单ID,选择已有表单。
方法二:快速建表,点击创建表单,进入快速建表页面,新建表单。(>>详见快速建表)
方法三:自由建表,点击“采集配置”-“数据建表”,点击采“采集表单”后面的。(>>详见自由建表)

数据建表页

clipboard.png

2.数据存储方式

指的是数据采集时,在数据库里的存储方式。
①插入:默认为插入。如遇到数据库中已存在的重复数据,则不再插入。
②仅更新:如遇到数据库中已存在的重复数据,则用最新采集的数据覆盖掉。
③追加:如字段的属性是运算字段,则可以进行字段运算。
④插入并更新:没有重复的记录则插入,有重复记录则更新。

二,如何采集列表/表格数据

识别列表用于存储表格/列表的数据,将表格/列表的不同列对应存入不同字段,表格/列表的不同行分别存储为数据表的多条记录。以前嗅官网Web服务器(http://www.forenose.com/panne…)为例。

1.创建表单

根据表格内容,创建一个存储表格数据的表单。在选项卡“数据建表”中,创建一个表单。(>>自由建表)

识别列表的表结构

clipboard.png

(1)主键
采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“网页主键”。
表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)

主键字段的配置

clipboard.png

(2)其他字段
其他字段的变量类型选择“string”,取值类型选择“选区内全部文本”。(>>字段参数)

其他字段的配置

clipboard.png

2.创建数据抽取

为数据抽取选择表单

选择表单

clipboard.png

3.识别多值

点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。

定位表格

clipboard.png

点击“识别多值”,选区扩大到整个表格。点击“确认选区”。

确认多值

图片描述

4.字段取值

主键字段不需要配置。存储表格内容的字段需要一一取值。(方法一:标准定位/方法二:特征定位)
点击数据抽取的字段,为其一一配置表格不同列的数据。点击相应字段,按Ctrl点击第一列的任意单元格,点击“保存”。

多值字段取值

clipboard.png

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/101092.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • pycharm2021激活码_在线激活

    (pycharm2021激活码)好多小伙伴总是说激活码老是失效,太麻烦,关注/收藏全栈君太难教程,2021永久激活的方法等着你。https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~40Z9P7H9NN-eyJsaWNlbnNlSWQiOi…

    2022年3月28日
    103
  • 本地sql数据库怎么与远程sql数据库同步使用_sqlserver复制数据库

    本地sql数据库怎么与远程sql数据库同步使用_sqlserver复制数据库MySQL数据同步主要有三种方式:1.利用MySQL自身的数据库同步功能2.利用MySQL数据库的特性(数据库存在固顶目录,并且以文件形式存储),进行数据库目录同步以达到数据同步目的3.利用专用的MySQL数据库同步软件1.利用MySQL自身的数据库同步功能(下面参考自网上的文章,写的非常详细了)MySQL从3.23.15版本以后提供数据库复制功能。利用该功能可以实现两个数据库同步,主从模式,互相备份模式的功能.数据库同步复制功能的设置都在mysql的设置文件中体现。mysql的配置文件

    2022年10月15日
    2
  • c语言中getchar的运用_c语言中gets和getchar

    c语言中getchar的运用_c语言中gets和getchar1.从缓冲区读走一个字符,相当于清除缓冲区2.前面的scanf()在读取输入时会在缓冲区中留下一个字符’\n'(输入完s[i]的值后按回车键所致),所以如果不在此加一个getchar()把这个回车符取走的话,gets()就不会等待从键盘键入字符,而是会直接取走这个“无用的”回车符,从而导致读取有误3.getchar()是在输入缓冲区顺序读入一个字符(包括空格、回车和Tab)getchar()使用不…

    2022年8月31日
    6
  • java中long的默认值_编程long

    java中long的默认值_编程longlongl=Long.valueOf(str);需要注意的是,在str中不能带有空格以及不能为空

    2025年7月6日
    6
  • 二叉树层序遍历实现

    二叉树层序遍历实现二叉树的层序遍历下图是一个简单的二叉树例图实现思路:1.创建一个队列用于二叉树的层序遍历。2.将二叉树根节点插入队列中。3.通过while循环遍历二叉树,直至遍历完整个二叉树后则结束循环。4.每次循环开始时先进行出队操作,若当前出队元素为null则证明已经完成层序遍历结束循环循环,若不为null则打印该节点的值,并判断该节点是否存在左右子树,若存在则依次插入队列中。图解上述二叉树的层序遍历过程依次进行图上操作直至最终队列为空时则层序遍历结束。实现代码如下:classTreeNod

    2022年5月11日
    40
  • java初级求职简历,初级Java软件工程师求职简历范文[通俗易懂]

    求职目标:Java软件工程师姓名:张XX年龄:24岁住址:北京市朝阳区电话:135xxxxxxxx邮箱:lucky@ijianli.com教育背景2013.09-至今??XXXXX大学??通信工程(本科)主修课程:电路理论基础、电子线路(线性与非线性)、电磁场理论、数字图像处理、数字系统与逻辑设计、单片机原理及其接口技术、信号与线性系统、数字信号处理、微机原理与测控技术、计算机网络与数据…

    2022年4月10日
    53

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号