scrapy中ROBOTSTXT_OBEY = True的相关说明「建议收藏」

scrapy中ROBOTSTXT_OBEY = True的相关说明「建议收藏」转载自  https://blog.csdn.net/you_are_my_dream/article/details/60479699在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:#Obeyrobots.txtrulesROBOTSTXT_OBEY=True观察代码可以发现,默认为True,就是要遵守robots.txt的规则,那么ro…

大家好,又见面了,我是你们的朋友全栈君。

转载自  https://blog.csdn.net/you_are_my_dream/article/details/60479699

在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:

# Obey robots.txt rules  
ROBOTSTXT_OBEY = True  

观察代码可以发现,
默认为True
,就是要遵守robots.txt 的规则,那么 robots.txt 是个什么东西呢?

通俗来说, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目录下的网页 不希望 你进行爬取收录。在Scrapy启动后,会在第一时间访问网站的 robots.txt 文件,然后决定该网站的爬取范围。

当然,我们并不是在做搜索引擎,而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以,某些时候,我们就要将此配置项设置为 False ,拒绝遵守 Robot协议

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/130366.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 精通Python爬虫框架Scrapy_爬虫经典案例

    精通Python爬虫框架Scrapy_爬虫经典案例Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试.其最初是为了页面抓取(更确切来说,网络抓取)所设计的,后台也应用在获取API所返回的数据(例如AmazonAssociatesWebServices)或者通用的网络爬虫.Scrapy吸引人的地…

    2022年4月19日
    90
  • win10永久激活

    win10永久激活现在我们可以看下当前系统的激活状态,查看方法”WIN+R”打开运行对话框,输入命令slmgr.vbs-xpr,点击确定,这样可以查看到当前系统的激活信息。大家可以发现,虽然小编系统激活了,但是只有180天时间到期,总是不爽。其它版本win10系统,小编没有测试,在Windows10专业版测试成功,我们可以在此电脑图标上点击右键,打开属性…

    2022年5月22日
    34
  • IDEA设置JVM运行参数[通俗易懂]

    IDEA设置JVM运行参数[通俗易懂]前言有时候我们需要在程序运行的时候对程序设置环境变量,恰巧我也遇到了这个问题,所以在此记录一下IDEA是如何设置环境变量的。作用-Dproperty=Value该参数通常用于设置系统级全局变量值,如配置文件路径,保证该属性在程序中任何地方都可访问。当然,也可以通过在程序中使用System.setProperty进行设置。注意:…

    2025年6月15日
    3
  • 二维矩阵中的最大矩形面积–java实现

    二维矩阵中的最大矩形面积–java实现

    2021年9月26日
    43
  • Apache Struts2打开重定向/命令执行 CVE-2013-2251「建议收藏」

    Apache Struts2打开重定向/命令执行 CVE-2013-2251「建议收藏」昨日,著名JavaWeb框架Struts官方再发高危安全漏洞补丁升级(最新版本为:2.3.15.1),升级修补了多个安全漏洞,其中包括一个远程任意代码的高危安全漏洞,这些漏洞可以影响到Struts2.0.0-Struts2.3.15的所有版本。攻击者可以利用该漏洞,执行恶意Java代码,最终导致网站数据被窃取、网页被篡改等严重后果。基于Struts2使用广泛,目前很多网站还没有升级,另外

    2022年7月13日
    17
  • Android 3d云标签

    Android 3d云标签

    2022年1月23日
    38

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号