spider(二) 爬虫的工作流程

spider(二) 爬虫的工作流程

  上一篇从概念上介绍了爬虫的作用,其实一个爬虫的构成是很复杂的,在互联网当中,网页之间的关系是无规律的,他们之间的关系也非常的复杂,如果一个爬虫从一个起点开始爬行,那么他会遇到无数多个分支,由此生成无数条的爬行路径,如果放任其爬行,就有可能永远也爬不到头,因此要对爬虫进行策略控制,制定其爬取规则。

  爬虫主要是为搜索引擎提供大量的数据基础,抓去的对象是互联网上的浩瀚资源,但是再好的爬虫也无法爬取所有的网络资源,所以爬虫如何高效的爬取有用的重要资源是当前亟待解决的问题,我们下面来看一下一个爬虫他主要的一个工作流程,后期的介绍我们也会按照这个工作流程去介绍爬虫的构成,以及一些性能方面的调优。

spider(二) 爬虫的工作流程  爬虫开始的时候需要给爬虫输送一个url列表,这个列表当中的url地址便是爬虫的起始位置,爬虫从这些url出发,开始了爬行,一直不断的发现新的url,然后再根据策略爬行发现的新的url,如此永远的反复下去,一般的爬虫都是自己简历dns缓冲,简历dns缓冲的目的是加快url解析撑IP地址的速度,google为了获取上亿的网页,设计了分布式的爬虫系统,一个url服务器讲url列表提供给网络爬行器,每个网络爬虫运行若干个连接,这样可以同时做到并行的爬取数据。

  由此可见爬虫系统是涉及到任务,多线程,策略的庞大的系统,在后续的研究中我们讲会做进一步的阐述。

转载于:https://www.cnblogs.com/foolfish/archive/2010/10/19/1855904.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/110706.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 四种黑盒测试方法_八大心态的总结怎么写

    四种黑盒测试方法_八大心态的总结怎么写一、等价类划分法1.定义2.划分等价类2.1有效等价类2.2无效等价类3.划分等价类的标准4.划分等价类的方法5.设计测试用例6.三角形实例二、边界值分析法1.定义2.与等价划分的区别3.边界值分析方法的考虑4.常见的边界值5.边界值分析6.基于边界值分析方法选择测试用例的原则7.实例说明8、三角形问题的边界值分析测试用例三、错误推测方法1.定义2.错误推测方法的基本思想:四、因果图方法1.定义2.因果图法产生的背景:3.因果图介绍4.因果图概念5.采用因果图法设计测试用例的步.

    2022年10月3日
    0
  • 数据挖掘之异常检测

    数据挖掘之异常检测看了数据挖掘的异常检测部分,写一点笔记。1.0概述什么是数据挖掘:数据挖掘什么是异常检测:异常检测异常检测的目标是发现与大部分其他对象不同的对象。通常,异常对象被称为离群点,因为在数据的散布

    2022年7月1日
    25
  • SPSS案例分析3:因子分析

    SPSS案例分析3:因子分析http hi baidu com datasoldier item 6689c4a50ec2 因子分析在各行各业的应用非常广泛 尤其是科研论文中因子分析更是频频出现 小兵也凑个热闹 参考 SPSS 统计分析 书中的案例 运用 SPSS 进行因子分析 作为我博客 nbsp SPSS 案例分析系列 nbsp nbsp 的第三篇文章 一 概念 探讨具有相关关系的变量之间 是否存在不能直

    2025年8月15日
    3
  • 强大的 IDEA 代码生成器,学会用,真香!

    强大的 IDEA 代码生成器,学会用,真香!

    2020年11月13日
    284
  • Maven环境配置及介绍[通俗易懂]

    Maven环境配置及介绍[通俗易懂]Maven环境配置及介绍Maven的出现是为了解决jar包管理的问题,可以通过简短的描述信息,进行项目管理的工具软件。1.maven的安装下载地址:http://maven.apache.org/downloa/d.cgi2.环境变量配置maven环境变量配置,配置方式跟jdk有些类似。新建环境变量MAVEN_HOME(值为maven的根目录)、然后在PATH环境变量里加入%MAVEN_HOME%\bin;即可。使用快捷键win+R,在黑窗口输入mvn–v进行查看,显示如下就表

    2022年5月14日
    36
  • Origin绘图快速上手指南

    Origin绘图快速上手指南1、创建工程打开origin后,点击菜单栏“文件”,选择“项目另存为”,给项目命名,并存到某个工作路径。2、导入数据然后将excel中的数据(只要数据)选中后复制到Book1中,从第5行开始粘贴。可以在侧面打开“项目管理器”,给表格“Book1”重命名为“曲线数据”。还可以在表格的“长单位”处给每列数据加上标签。3、那么这时可以直接使用Origin的自动绘图功能了。选择A、B、C所有列,然后点击菜单栏的“绘图”,选择一个折线图,双击即可绘图。这样呢就是将两条曲线放到同一张图中了。如果想要自定

    2022年5月31日
    54

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号