scrapy中ROBOTSTXT_OBEY = False,不遵守Robot协议文件的规则

scrapy中ROBOTSTXT_OBEY = False,不遵守Robot协议文件的规则在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:setting文件中配置:#Obeyrobots.txtrules#默认是True,遵守robots.txt文件中的协议,遵守允许爬取的范围。#设置为False,是不遵守robo协议文件。。。ROBOTSTXT_OBEY=True观察代码可以发现,默认为True,就是要遵守rob…

大家好,又见面了,我是你们的朋友全栈君。

在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:

setting文件中配置:

# Obey robots.txt rules

#默认是True,遵守robots.txt文件中的协议,遵守允许爬取的范围。
#设置为False,是不遵守robo协议文件。。。
ROBOTSTXT_OBEY = True

观察代码可以发现,默认为True,就是要遵守robots.txt 的规则,那么 robots.txt 是个什么东西呢?

通俗来说, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目录下的网页 不希望 你进行爬取收录。在Scrapy启动后,会在第一时间访问网站的 robots.txt 文件,然后决定该网站的爬取范围。

当然,我们并不是在做搜索引擎,而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以,某些时候,我们就要将此配置项设置为 False ,拒绝遵守 Robot协议 !

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/131859.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • chrome浏览器多开_双开软件默认打开软件更改

    chrome浏览器多开_双开软件默认打开软件更改#include<windows.h>#include<stdio.h>intmain(intargc,char*argv[]){//初始化临界区全局原子变量HANDLEMutexHandle=CreateMutex(NULL,FALSE,TEXT(“AAA”));//创建互斥体.信号量为0.有信号的状态.wait可以等待DWORDErrorCode=0;ErrorCode=GetLastError

    2022年10月5日
    2
  • 机器学习中【回归算法】详解

    机器学习中【回归算法】详解关注微信公众号【Microstrong】,我写过四年Android代码,了解前端、熟悉后台,现在研究方向是机器学习、深度学习!一起来学习,一起来进步,一起来交流吧!本文同步更新在我的微信公众号里,地址:https://mp.weixin.qq.com/s?__biz=MzI5NDMzMjY1MA==&amp;mid=2247483935&amp;idx=1&amp;sn=5e1c55c76…

    2022年8月21日
    5
  • python中drop用法_python compile函数

    python中drop用法_python compile函数pandas的设计目标之一就是使得处理缺失数据的任务更加轻松些。pandas使用NaN作为缺失数据的标记。python学习网,大量的免费python视频教程,欢迎在线学习!使用dropna使得滤除缺失数据更加得心应手。dropna常用参数:#DataFrame.dropna(axis=0,how=’any’,thresh=None,subset=None,inplace=False)主要…

    2022年9月18日
    2
  • 页面刷新之reload()和refresh()的区别

    页面刷新之reload()和refresh()的区别window.reload()重新加载当前需要的所有内容,也就包括页面和后台的代码,此过程中实际上是从后台重新进行操作;window.refresh()是更新,保存以前的缓存文件內容,再次载入网

    2022年7月1日
    32
  • 5.6(java学习笔记) queue

    5.6(java学习笔记) queue

    2021年6月14日
    117
  • 开源 串口调试助手 BaoYuanSerial 使用教程「建议收藏」

    开源 串口调试助手 BaoYuanSerial 使用教程「建议收藏」简介:软件使用.Net5+Avalonia实现跨平台方案。支持LinuxUbuntu,Windows,已在Ubuntu20.04,Win10Professional20H2测试通过。官方下载地址:项目地址:xuyuanbao/BaoYuanSerial:AGUISerialDebugToolforLinux/MicrosfotWindow(github.com)下载地址:ReleaseBaoYuanSerila-V1.1·xuyuanbao/BaoYuanSer

    2022年4月30日
    103

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号