网络爬虫之网站背景调研建议收藏

1.检查robots.txt大多数网站都会定义一robots.txt文件,这样可以了解爬取该网站时存在哪些限制,在爬取之前检查robots.txt文件这一宝贵资源可以最小化爬虫被封禁的可能,而且还

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

全栈程序员社区此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“全栈程序员社区”或者“www_javaforall_cn”或者微信扫描右侧二维码都可以关注本站微信公众号。

1. 检查robots.txt

  大多数网站都会定义一robots.txt文件,这样可以了解爬取该网站时存在哪些限制,在爬取之前检查robots.txt文件这一宝贵资源可以最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索。

  输入http://example.webscraping.com/robots.txt 我们会看到以下内容:

  网络爬虫之网站背景调研建议收藏

  section1:禁止用户代理为BadCrawler的爬虫爬取网站

  section2:规定无论使用任何的代理,都应该在两次下载请求之间给出5秒的抓取延时,我们应该遵从该建议避免服务器过载,Disllow:/trap表示禁止爬取/trap链接,如果访问的画,服务器将会封你的ip

  section3:  告诉了我们一个网址,该网址内容可以帮助我们定位网站的最新内容

2. 检查网站地图

  从robots.txt内容可以看到,网站为我们提供了Sitemap网址,该网址可以帮助我们定位网站最新的内容,而无须爬取每一个网页,关于网站地图标准协议可以查看https://www.sitemaps.org/protocol.html,打开sitemap看看

  网络爬虫之网站背景调研建议收藏

  发现该网站地图提供了所有网页链接,虽然网站地图文件提供了一种爬取网站的有效方式,但是我们仍需对其谨慎处理,因为该文件经常存在缺失、过期或不完整的问题

3. 估算网站大小

  目标网站的大小会影响我们如何进行爬取,如果网页的数量级特别大,使用串行下载可能需要持续数月才能完成,这时就需要使用分布式下载解决了

4. 识别网站技术

import builtwith
print(builtwith.parse("http://example.webscraping.com"))

网络爬虫之网站背景调研建议收藏

5. 网站所有者

  pip install python-whois

  以博客园为例:

import whois
print (whois.whois("https://i.cnblogs.com"))

网络爬虫之网站背景调研建议收藏

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120197.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • vue 使用数组splice方法失效,且总是删除最后一项的解决办法。[通俗易懂]

    vue 使用数组splice方法失效,且总是删除最后一项的解决办法。[通俗易懂]今天在写项目的时候,遇到一个很简单的需求,下图,点击添加标签,左边出现一个可以输入的标签,点击删除按钮,就能删除当前标签,很简单的需求,我却搞了一个多小时(哎…新手愚笨啊)一看到这个我的思路就是点击添加标签,把新增的节点push到自己定义的数组里,然后渲染出来,点击删除按钮,用splice方法从数组中删除掉当前的节点(很简单,很明确的思路嘛,但是却事与愿违) <div…

    2022年9月24日
    1
  • IOCP一:AcceptEx「建议收藏」

    IOCP一:AcceptEx「建议收藏」IOCP底层机理还没有透彻的理解,现将部分内容记录如下2014.7.2216:50把完成端口理解为完成队列。投递的异步IO请求完成后会携带三参数返回。异步IO请求分为:连接、接收、发送,分别

    2022年7月2日
    37
  • 最常见的24个逻辑错误_数学主要错误分析原因

    最常见的24个逻辑错误_数学主要错误分析原因前言:最近使用阿里云windows2008R2云服务器搭建网站QQ互联接入(第三方登录)服务的过程中,使用了phpcmsV9提供的V9.6.3压缩包内的.htaccess文件。几经辗转,仍然没能解决过程中遇到的问题,问了一些技术大咖,有人说可能是500错误。以前知道有400报错,还真不知道有个500错误,所以上网查询之后,觉得应该小结一篇。1.造成500错误常见原因有:ASP语法出…

    2022年4月20日
    54
  • 搞定Android开发环境部署——非常详细的Android开发环境搭建教程[通俗易懂]

    搞定Android开发环境部署——非常详细的Android开发环境搭建教程[通俗易懂]引言在windows安装Android的开发环境不简单也说不上算复杂,本文写给第一次想在自己Windows上建立Android开发环境投入Android浪潮的朋友们,为了确保大家能顺利完成开发环境的搭建,文章写的尽量详细,希望对准备进入Android开发的朋友有帮助。 Android开发环境搭建分为以下四步:第一步、安装JDK;第二步、安装Eclipse;第三步、下载并

    2022年7月23日
    12
  • DOS命令之COPY

    DOS命令之COPYDOS命令之COPY本文的命令说明来自与DOS命令帮助说明,如果与DOS命令帮助说明不同,请以DOS命令帮助说明为准。1,命令说明     将一份或多份文件复制到另一个位置。     COPY[/D][/V][/N][/Y|/-Y][/Z][/L][/A|/B]source[/A|/B]            [+s

    2022年7月18日
    18
  • 免费的天气预报API–谷歌,雅虎,中央气象台

    免费的天气预报API–谷歌,雅虎,中央气象台

    2021年12月4日
    71

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号