scrapy中ROBOTSTXT_OBEY = True的相关说明「建议收藏」

scrapy中ROBOTSTXT_OBEY = True的相关说明「建议收藏」转载自  https://blog.csdn.net/you_are_my_dream/article/details/60479699在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:#Obeyrobots.txtrulesROBOTSTXT_OBEY=True观察代码可以发现,默认为True,就是要遵守robots.txt的规则,那么ro…

大家好,又见面了,我是你们的朋友全栈君。

转载自  https://blog.csdn.net/you_are_my_dream/article/details/60479699

在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:

# Obey robots.txt rules  
ROBOTSTXT_OBEY = True  

观察代码可以发现,
默认为True
,就是要遵守robots.txt 的规则,那么 robots.txt 是个什么东西呢?

通俗来说, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目录下的网页 不希望 你进行爬取收录。在Scrapy启动后,会在第一时间访问网站的 robots.txt 文件,然后决定该网站的爬取范围。

当然,我们并不是在做搜索引擎,而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以,某些时候,我们就要将此配置项设置为 False ,拒绝遵守 Robot协议

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/130366.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 如何编写一个程序猿另一个面试官眼前一亮的简历[通俗易懂]

    如何编写一个程序猿另一个面试官眼前一亮的简历

    2022年1月17日
    38
  • ES6 Promise用法小结

    ES6 Promise用法小结目录1.什么是Promisereject的用法catch的用法all的用法race的用法1.什么是PromisePromise是异步编程的一种解决方案,其实是一个构造函数,自己身上有all、reject、resolve这几个方法,原型上有then、catch等方法。Promise对象有以下两个特点。(1)对象的状态不受外界影响。Promise对象代表一个异步操…

    2022年6月12日
    31
  • python与java的比较_Python和Java两者有什么区别?

    python与java的比较_Python和Java两者有什么区别?Java是具有悠久历史的老牌开发语言,Python是如今人工智能时代的首选语言,无论是Java还是Python都相当强大,这两门语言有很多的相似之处,但是也有很多的不同,难免会拿来比较。今天千锋小编就和大家对比一下Python和Java,看看两者有什么区别?1.开源这两者都是开源语言,换言之你可以随意的使用这两门语言而不需要付费,你也可以阅读他们的源代码学习,并且对它们做一些改动。在这一点上,两者…

    2022年7月8日
    15
  • java延迟加载 dbutils_Lettuce「建议收藏」

    java延迟加载 dbutils_Lettuce「建议收藏」[TOC]#简介Lettuce是一个可伸缩的线程安全的Redis客户端,支持同步、异步和响应式模式。多个线程可以共享一个连接实例,而不必担心多线程并发问题。它基于优秀nettyNIO框架构建,支持Redis的高级功能,如Sentinel,集群,流水线,自动重新连接和Redis数据模型。#redis单机情况目前,Lettuce官方发布的最新的版本为[5.0.4](http…

    2022年10月28日
    0
  • 注册广播接收器registerReceiver

    注册广播接收器registerReceiver从registerReceiver(BroadcastReceiverreceiver,IntentFilterfilter)出发所经历的类和方法:registerReceiver(receiver,filter)–>ContextWrapper.java$registerReceiver(receiver,filter);@OverridepublicIntentregis…

    2022年10月25日
    0
  • 使用DbUtils实现CRUD

    使用DbUtils实现CRUD

    2022年1月2日
    39

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号