spider(二) 爬虫的工作流程

spider(二) 爬虫的工作流程

  上一篇从概念上介绍了爬虫的作用,其实一个爬虫的构成是很复杂的,在互联网当中,网页之间的关系是无规律的,他们之间的关系也非常的复杂,如果一个爬虫从一个起点开始爬行,那么他会遇到无数多个分支,由此生成无数条的爬行路径,如果放任其爬行,就有可能永远也爬不到头,因此要对爬虫进行策略控制,制定其爬取规则。

  爬虫主要是为搜索引擎提供大量的数据基础,抓去的对象是互联网上的浩瀚资源,但是再好的爬虫也无法爬取所有的网络资源,所以爬虫如何高效的爬取有用的重要资源是当前亟待解决的问题,我们下面来看一下一个爬虫他主要的一个工作流程,后期的介绍我们也会按照这个工作流程去介绍爬虫的构成,以及一些性能方面的调优。

spider(二) 爬虫的工作流程  爬虫开始的时候需要给爬虫输送一个url列表,这个列表当中的url地址便是爬虫的起始位置,爬虫从这些url出发,开始了爬行,一直不断的发现新的url,然后再根据策略爬行发现的新的url,如此永远的反复下去,一般的爬虫都是自己简历dns缓冲,简历dns缓冲的目的是加快url解析撑IP地址的速度,google为了获取上亿的网页,设计了分布式的爬虫系统,一个url服务器讲url列表提供给网络爬行器,每个网络爬虫运行若干个连接,这样可以同时做到并行的爬取数据。

  由此可见爬虫系统是涉及到任务,多线程,策略的庞大的系统,在后续的研究中我们讲会做进一步的阐述。

转载于:https://www.cnblogs.com/foolfish/archive/2010/10/19/1855904.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/110706.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Linux文件系统类型介绍[通俗易懂]

    Linux文件系统类型介绍[通俗易懂]Linux把设备都当作文件一样来进行操作,这样就大大方便了用户的使用(在后面的Linux编程中可以更为明显地看出)。在Linux下与设备相关的文件一般都在/dev目录下,它包括两种,一种是块设备文件,另一种是字符设备文件。这就涉及到文件系统,以下介绍以下Linux文件系统。 1.ext2和ext3 ext3是现在Linux(包括RedHat,Mandrake下…

    2022年9月17日
    2
  • setAttribute改变属性,动态改变类

    setAttribute改变属性,动态改变类

    2022年2月22日
    45
  • IDEA官方汉化包

    IDEA官方汉化包IDEA修改为中文模式自IEDA2020发行不久,IDEA官方就发布了支持中文喜讯。今晚看到同学还在为找到IDEA汉化包而高兴,不由得想到可以水一篇博客。这是我用官方的包汉化IDEA2020.1后的结果:基本上能看到的英文字母都汉化成简体中文了,就很nice!汉化过程很简单Ctrl+Alt+s进入setting找到Plugins,直接在如下的搜索框中输入chinese回车,选择第一个如图所示插件进行下载并应用。然后重启即可发现:诶!英文变成中文了。也可以在官网下载jar包导入IDEA安装

    2022年6月9日
    292
  • 推荐系统——LR模型「建议收藏」

    推荐系统——LR模型「建议收藏」LR模型是广义线性模型。LR模型(对数几率回归模型),虽然叫回归,但是其本质为分类。对数几率函数是一种sigmoid函数。线性模型有可解释性强、易于并行的优点。但是其难以表示非线性关系,所以模型的准确性可能不好。为了增强原始特征与拟合目标之间的非线性关系,通常需要对原始特征做一些非线性转换。常用的转换方法包括:连续特征离散化、特征之间的交叉等。离散化相当于把连续函数变成分段函数来增加非线性…

    2022年10月13日
    4
  • signature=26e3fa40cff08d52a53392bd149aa17b,Window Element, a Profiled Pultruded Panel, a System of a…

    signature=26e3fa40cff08d52a53392bd149aa17b,Window Element, a Profiled Pultruded Panel, a System of a…Thepresentinventiongenerallyrelatestothetechnicalfieldofhousesandbuildingsandtechniquesofbuildinghousesandbuildingsandmoreparticularlyrelatestonovelwindowelementsandpanels…

    2022年6月9日
    35
  • java 异或加密_Java异或技操作给任意的文件加密原理及使用详解

    java 异或加密_Java异或技操作给任意的文件加密原理及使用详解异或简单介绍:异或是一种基于二进制的位运算,用符号XOR或者^表示,其运算法则是对运算符两侧数的每一个二进制位,同值取0,异值取1。简单理解就是不进位加法,如1+1=0,,0+0=0,1+0=1。需求描述在信息化时代对数据进行加密是一个很重要的主题,在做项目的过程中,我也实现了一个比较复杂的加密算法,但是由于涉及到的技术是保密的,所以在这里我实现一个比较简单的版本,利用文件的输入输出流和异或操…

    2022年9月28日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号