scrapy框架中ROBOTSTXT_OBEY = True的说明

scrapy框架中ROBOTSTXT_OBEY = True的说明在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:#Obeyrobots.txtrulesROBOTSTXT_OBEY=True默认为True,就是要遵守robots.txt的规则,那么robots.txt是个啥?通俗来说,robots.txt是遵循Robot协议的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目…

大家好,又见面了,我是你们的朋友全栈君。

在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

默认为True,就是要遵守robots.txt 的规则,那么 robots.txt 是个啥?

通俗来说, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目录下的网页 不希望 你进行爬取收录。在Scrapy启动后,会在第一时间访问网站的 robots.txt 文件,然后决定该网站的爬取范围。

当然,我们并不是在做搜索引擎,而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以,某些时候,我们就要将此配置项设置为 False ,拒绝遵守 Robot协议 !

淘宝Robots文件:https://www.taobao.com/robots.txt

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/130635.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 标量tensor转numpy数组时在pycharm调试下显示异常「建议收藏」

    标量tensor转numpy数组时在pycharm调试下显示异常「建议收藏」最近发现了一个问题,在标量tensor转numpy数组之后,在pycharm调试的过程中,我想看一下这个数组的值,却发现显示异常。importnumpyasnpimporttorcha=torch.tensor(5)b=a.numpy()print(b)如上面这个代码,在断点调试的时候,b这个数组的array显示出现异常可能还是numpy的数组在定义显示的时候,是根据shape来的吧,而这个时候这个shape是一个空值,所以就有了这个无法显示的异常。解决的方

    2022年10月19日
    0
  • JAVA面试题及答案整理(最新版)

    JAVA面试题及答案整理(最新版)这些Java技术栈整理成册(包括:VM,JAVA集合,JAVA多线程并发,JAVA基础,Spring原理,微服务,Netty与RPC,网络,日志,Zookeeper,Kafka,RabbitMQ,Hbase,MongoDB,Cassandra,设计模式,负载均衡,数据库,一致性哈希,JAVA算法,数据结构,加密算法,分布式缓存,Hadoop,Spark,Storm,YARN,机器学习,云计算),对你的面试大有帮助,让你offer到手,高薪也有!JVM 线程 JVM内存区域

    2022年7月7日
    20
  • dumpbin的使用方法_Dumpbin 工具的使用

    dumpbin的使用方法_Dumpbin 工具的使用sSummary1000.data1000.reloc1000.rsrc8000.textC:\>dumpbinMicrosoft(R)COFFBinaryFileDumperVersion6.00.844Copyright(C)MicrosoftCorp1992-1998.Allrightsresusage:DUMPBIN[options][fil…

    2022年6月19日
    22
  • 携程 爬虫_python自动化和爬虫先学哪个

    携程 爬虫_python自动化和爬虫先学哪个一、查看chrome版本浏览器:chrome://version/二、下载传送门url:http://chromedriver.storage.proxy.ustclug.org/index.html根据自己的版本进行下载放入C:\ProgramFiles\Google\Chrome\Application三、由于携程

    2022年10月31日
    0
  • ARP欺骗原理_ARP欺骗实验

    ARP欺骗原理_ARP欺骗实验一.arp欺骗的原理 以太网设备(比如网卡)都有自己全球唯一的MAC地址,它们是以MAC地址来传输以太网数据包的,但是以太网设备却识别不了IP数据包中的IP地址,所以要在以太网中进行IP通信,就需要一个协议来建立IP地址与MAC地址的对应关系,使IP数据包能够发送到一个确定的主机上。这种功能是由arp(AddressResolutionProtocol)来完成的。 arp被设计成用来实现

    2022年10月25日
    0
  • UpdatePanel的用法

    UpdatePanel的用法

    2021年12月9日
    36

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号