网络爬虫之网站背景调研建议收藏

1.检查robots.txt大多数网站都会定义一robots.txt文件,这样可以了解爬取该网站时存在哪些限制,在爬取之前检查robots.txt文件这一宝贵资源可以最小化爬虫被封禁的可能,而且还

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

全栈程序员社区此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“全栈程序员社区”或者“www_javaforall_cn”或者微信扫描右侧二维码都可以关注本站微信公众号。

1. 检查robots.txt

  大多数网站都会定义一robots.txt文件,这样可以了解爬取该网站时存在哪些限制,在爬取之前检查robots.txt文件这一宝贵资源可以最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索。

  输入http://example.webscraping.com/robots.txt 我们会看到以下内容:

  网络爬虫之网站背景调研建议收藏

  section1:禁止用户代理为BadCrawler的爬虫爬取网站

  section2:规定无论使用任何的代理,都应该在两次下载请求之间给出5秒的抓取延时,我们应该遵从该建议避免服务器过载,Disllow:/trap表示禁止爬取/trap链接,如果访问的画,服务器将会封你的ip

  section3:  告诉了我们一个网址,该网址内容可以帮助我们定位网站的最新内容

2. 检查网站地图

  从robots.txt内容可以看到,网站为我们提供了Sitemap网址,该网址可以帮助我们定位网站最新的内容,而无须爬取每一个网页,关于网站地图标准协议可以查看https://www.sitemaps.org/protocol.html,打开sitemap看看

  网络爬虫之网站背景调研建议收藏

  发现该网站地图提供了所有网页链接,虽然网站地图文件提供了一种爬取网站的有效方式,但是我们仍需对其谨慎处理,因为该文件经常存在缺失、过期或不完整的问题

3. 估算网站大小

  目标网站的大小会影响我们如何进行爬取,如果网页的数量级特别大,使用串行下载可能需要持续数月才能完成,这时就需要使用分布式下载解决了

4. 识别网站技术

import builtwith
print(builtwith.parse("http://example.webscraping.com"))

网络爬虫之网站背景调研建议收藏

5. 网站所有者

  pip install python-whois

  以博客园为例:

import whois
print (whois.whois("https://i.cnblogs.com"))

网络爬虫之网站背景调研建议收藏

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120197.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java executeupdate_Java自学-JDBC execute与executeUpdate的区别

    java executeupdate_Java自学-JDBC execute与executeUpdate的区别JDBC中execute与executeUpdate的区别execute与executeUpdate的区别步骤1:相同点execute与executeUpdate的相同点:都可以执行增加,删除,修改packagejdbc;importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.SQLExceptio…

    2022年10月20日
    0
  • 软件测试用例常用七大方法

    软件测试用例常用七大方法第一:测试用例格式包括十大特点用例编号测试项测试标题用例属性重要级别:高中低预置条件测试输入操作步骤预期结果实际结果第二:等价类1,等价类定义2,等价类划分3,等价类划分规则4,进行等价类用例设计5,案例加以说明第三:边界值1,边界值的三点2,边界值应用场景3,边界值方法应用步骤第四:判定…

    2022年6月30日
    29
  • 微信十年庆生 米聊黯然退场

    点击上方“全栈程序员社区”,星标公众号 重磅干货,第一时间送达 【环球网科技综合报道】在微信庆祝 “十周岁”生日的当天,小米旗下米聊宣布彻底退出历史舞台,并关闭了服务器。 2021…

    2021年6月25日
    79
  • 怎么获取smtp服务器用户帐号和密码

    怎么获取smtp服务器用户帐号和密码

    2021年9月21日
    251
  • 使用@Profiled注解或自定义AOP拦截打印日志json序列化失败

    使用@Profiled注解或自定义AOP拦截打印日志json序列化失败项目中使用@Profiled注解方式进行统一日志打印输出fastjson踩坑记录一下1:@Profiled注解方式如上图:方法上使用注解@Profiled,因为我的入参有HttpServletResponse,日志打印时会对所有入参进行序列化操作,所对以HttpServletResponse进行JSON.toJSONString()转换会抛出以上异常,此时要么干掉HttpServletResponse,或者换一种方式手动注入HttpServletResponse即可解决以上异常,如下图:

    2022年6月6日
    22
  • 常用的web漏洞扫描工具_十大常用管理工具

    常用的web漏洞扫描工具_十大常用管理工具Webscantool推荐10大Web漏洞扫描程序Nikto这是一个开源的Web服务器扫描程序,它可以对Web服务器的多种项目(包括3500个潜在的危险文件/CGI,以及超过900个服务器版本,还有250多个服务器上的版本特定问题)进行全面的测试。其扫描项目和插件经常更新并且可以自动更新(如果需要的话)。Nikto可以在尽可能短的周期内测试你的Web服务器,这在其日志文件中…

    2022年9月12日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号