scrapy中ROBOTSTXT_OBEY = True的相关说明「建议收藏」

scrapy中ROBOTSTXT_OBEY = True的相关说明「建议收藏」转载自  https://blog.csdn.net/you_are_my_dream/article/details/60479699在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:#Obeyrobots.txtrulesROBOTSTXT_OBEY=True观察代码可以发现,默认为True,就是要遵守robots.txt的规则,那么ro…

大家好,又见面了,我是你们的朋友全栈君。

转载自  https://blog.csdn.net/you_are_my_dream/article/details/60479699

在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:

# Obey robots.txt rules  
ROBOTSTXT_OBEY = True  

观察代码可以发现,
默认为True
,就是要遵守robots.txt 的规则,那么 robots.txt 是个什么东西呢?

通俗来说, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目录下的网页 不希望 你进行爬取收录。在Scrapy启动后,会在第一时间访问网站的 robots.txt 文件,然后决定该网站的爬取范围。

当然,我们并不是在做搜索引擎,而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以,某些时候,我们就要将此配置项设置为 False ,拒绝遵守 Robot协议

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/130366.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • leetcode数组汇总_leetcode经典题

    leetcode数组汇总_leetcode经典题原题链接给定一个由整数数组 A 表示的环形数组 C,求 C 的非空子数组的最大可能和。在此处,环形数组意味着数组的末端将会与开头相连呈环状。(形式上,当0 <= i < A.length 时 C[i] = A[i],且当 i >= 0 时 C[i+A.length] = C[i])此外,子数组最多只能包含固定缓冲区 A 中的每个元素一次。(形式上,对于子数组 C[i], C[i+1], …, C[j],不存在 i <= k1, k2 <= j 其中 k1 % A.leng

    2022年8月8日
    3
  • docker start容器失败_戴尔重装系统出现invalid

    docker start容器失败_戴尔重装系统出现invaliddocker出现GPGerror:Atleastoneinvalidsignaturewasencountered相关问题及解决方法。W:GPGerror:http://mirrors.tuna.tsinghua.edu.cn/debianbusterInRelease:Atleastoneinvalidsignaturewasencountered.E:Therepository’http://mirrors.tuna.tsinghua.edu.cn/d

    2022年10月13日
    0
  • java numeric_java基本字符数据类型

    java numeric_java基本字符数据类型先看DDL再看自动转换的java类型结论:(范围都是闭区间)numeric[1,4]是Shortnumeric[5,9]是Integernumeric[10,18]是Longnumeric[19]及以上是BigDecimal

    2025年6月16日
    1
  • c++虚函数详解(你肯定懂了)

    c++虚函数详解(你肯定懂了)转自:c++虚函数 大牛的文章,就是通俗易懂,言简意赅。前言C++中的虚函数的作用主要是实现了多态的机制。关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”,这是一种泛型技术。所谓泛型技术,说白了就是试图使用不变的代码来实现可变的算法。比如:模板技术,RTTI技术,虚函数技术,要么是试图做到在编译时决议…

    2022年7月26日
    8
  • Linux 镜像文件ISO下载

    Linux 镜像文件ISO下载Linux镜像文件ISO下载地址:https://archive.kernel.org/centos-vault/6.1/isos/x86_64/

    2022年5月29日
    37
  • IDEA2021.2安装与配置(持续更新)「建议收藏」

    IDEA2021.2安装与配置一、下载二、安装三、配置配置全局生效首次启动激活字体,字体大小配色方案注解生效自动导包移包自动补全快捷键格式化代码代码忽略大小写git配置maven配置四、插件Vue.jsTranslationlombok一、下载下载地址:https://www.jetbrains.com/zh-cn/idea/download/other.html选择相应的版本下载,这里以2021.2版本为例。二、安装更改安装位置创建桌面快捷方式三、配置配置全局生效不要打开项目,直

    2022年4月9日
    188

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号