spider(二) 爬虫的工作流程

spider(二) 爬虫的工作流程

  上一篇从概念上介绍了爬虫的作用,其实一个爬虫的构成是很复杂的,在互联网当中,网页之间的关系是无规律的,他们之间的关系也非常的复杂,如果一个爬虫从一个起点开始爬行,那么他会遇到无数多个分支,由此生成无数条的爬行路径,如果放任其爬行,就有可能永远也爬不到头,因此要对爬虫进行策略控制,制定其爬取规则。

  爬虫主要是为搜索引擎提供大量的数据基础,抓去的对象是互联网上的浩瀚资源,但是再好的爬虫也无法爬取所有的网络资源,所以爬虫如何高效的爬取有用的重要资源是当前亟待解决的问题,我们下面来看一下一个爬虫他主要的一个工作流程,后期的介绍我们也会按照这个工作流程去介绍爬虫的构成,以及一些性能方面的调优。

spider(二) 爬虫的工作流程  爬虫开始的时候需要给爬虫输送一个url列表,这个列表当中的url地址便是爬虫的起始位置,爬虫从这些url出发,开始了爬行,一直不断的发现新的url,然后再根据策略爬行发现的新的url,如此永远的反复下去,一般的爬虫都是自己简历dns缓冲,简历dns缓冲的目的是加快url解析撑IP地址的速度,google为了获取上亿的网页,设计了分布式的爬虫系统,一个url服务器讲url列表提供给网络爬行器,每个网络爬虫运行若干个连接,这样可以同时做到并行的爬取数据。

  由此可见爬虫系统是涉及到任务,多线程,策略的庞大的系统,在后续的研究中我们讲会做进一步的阐述。

转载于:https://www.cnblogs.com/foolfish/archive/2010/10/19/1855904.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/110706.html原文链接:https://javaforall.net

(0)
上一篇 2021年8月8日 下午2:00
下一篇 2021年8月8日 下午3:00


相关推荐

  • “养龙虾”突然爆火,最新提醒

    “养龙虾”突然爆火,最新提醒

    2026年3月13日
    2
  • DOCKER图形页面管理工具–3种,shipyard最强大,其次是portainer

    DOCKER图形页面管理工具–3种,shipyard最强大,其次是portainerDOCKER 图形页面管理工具 3 种 基本上是 3 个工具 DOCKERUI shipyard portainer 对比后 shipyard 最强大 其次是 portainer 最后是 dockerui nbsp nbsp docker 针对于系统工程师或者开发人员来说操作比较简单 一般我们习惯了对着黑黑的屏幕敲命令 dockerpull dockerpush dockerrun dockerlo

    2026年2月1日
    4
  • 【模型开发】评分卡应用

    【模型开发】评分卡应用今天看群里有人问的这个问题 我也挺感兴趣的 我们模型做好后 后续的策略使用 都有哪些方向 如何使用分数切割点如何定 定的业务逻辑是什么

    2026年3月16日
    2
  • c++之this指针详解

    c++之this指针详解1.this指针的用处:一个对象的this指针并不是对象本身的一部分,不会影响sizeof(对象)的结果。this作用域是在类内部,当在类的非静态成员函数中访问类的非静态成员的时候,编译器会自动将对象本身的地址作为一个隐含参数传递给函数。也就是说,即使你没有写上this指针,编译器在编译的时候也是加上this的,它作为非静态成员函数的隐含形参,对各成员的访问均通过this进行。  例如,调用

    2022年5月13日
    45
  • OSPF路由协议详解

    OSPF路由协议详解OSPF 开放式最短路径优先协议无类别链路状态路由协议 组播更新 224 0 0 5 6 跨层封装到三层 协议号 89 基于拓扑工作 故更新量大 需要结构化部署 区域划分 地址规划触发更新 每 30min 周期更新 OSPF 的数据包 Hello 包 DBD 数据库描述包 LSR 链路状态请求 LSU 链路状态更新携带各种 LSALSack 链路状态确认状态机 OSP

    2026年3月16日
    2
  • 电子商务网站安全_跨境电商有哪些平台

    电子商务网站安全_跨境电商有哪些平台电商网站安全应对之道(电商网站安全的威胁类型:https://blog.csdn.net/qq_29039705/article/details/80486795)一、预防逻辑漏洞进行业务流程梳理接口会发加签名和超时机制避免通过前端进行验证和现在减少暴露给用户的参数增加共享数据互斥机制不要相信用户输入检查用户输入二、预防越权操作任何涉及用户权限的操作均匀会话关联参数的加密及模糊化严格验证程序逻辑顺…

    2026年4月20日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号