scrapy下载图片报[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt:错误[通俗易懂]

scrapy下载图片报[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt:错误[通俗易懂]本文转自:http://blog.csdn.net/zzk1995/article/details/51628205先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbiddenbyrobots.txt,看来是请求被拒绝了。…

大家好,又见面了,我是你们的朋友全栈君。

本文转自:http://blog.csdn.net/zzk1995/article/details/51628205

 

先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。
使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用chrome抓包看了半天感觉没有影响简单页面抓取的机制(其他保密机制应该还是有的,打开一个页面时,向不同服务器递交了很多请求,还设定了一些不知道干啥的cookies),最后用urllib伪造请求发现页面都能抓取回来。于是上网查了一下robot.txt是什么,发现原来有个robot协议,终于恍然大悟:
我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:

2016-06-10 18:16:26 [scrapy] DEBUG: Crawled (200) <GET https://item.taobao.com/robots.txt> (referer: None) 
  • 1
  • 2

这个文件中规定了本站点允许的爬虫机器爬取的范围(比如你不想让百度爬取你的页面,就可以通过robot来限制),因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限,而我们现在访问这个url得到

User-agent: * Disallow: /
  • 1
  • 2

可以看见,淘宝disallow根目录以下所有页面。。。。(似乎有新闻说淘宝关闭了爬虫对它们的爬取权限,因为涉及到用户隐私)所以scrapy就停止了之后的请求和页面解析。
我们在setting改变ROBOTSTXT_OBEY为False,让scrapy不要遵守robot协议,之后就能正常爬取了。

2016-06-10 18:27:38 [scrapy] INFO: Spider opened 2016-06-10 18:27:38 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2016-06-10 18:27:38 [scrapy] DEBUG: Crawled (200) <GET https://item.taobao.com/xxxxxxx> (referer: None) 
  • 1
  • 2
  • 3
  • 4

对于使用robot协议的站点,只需要我们的爬虫不遵守该协议,就可以了,但是对于防止爬虫爬取,站点还有检查请求头、检查ip等等手段,还需要其他的相应处理。

 

本文来源:http://blog.csdn.net/zzk1995/article/details/51628205

转载于:https://www.cnblogs.com/jiuyang/p/7742524.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/131374.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月12日 下午1:46
下一篇 2022年6月12日 下午2:00


相关推荐

  • pytest-allure_pytest数据驱动

    pytest-allure_pytest数据驱动前言allure是一个report框架,支持java的Junit/testng等框架,当然也可以支持python的pytest框架,也可以集成到Jenkins上展示高大上的报告界面。mac环境:

    2022年7月28日
    15
  • 计算机原码、补码和反码

    计算机原码、补码和反码http supermaster blog 51cto com 看到这个标题 很多人有话要说了 切 这个东西每一本计算机基础知识的书中都有介绍的 你还拿出来 Show 什么嘛 我的原则是你需要就来看一看 懂就不要去理会 倒也不必讽刺两句 我相信总有需要它的人 当初我看书是没看明白的 在网上查了好多资料才有所悟 前几天跟老婆讲原码 反码和补码的知识 老婆似懂非懂 在这里我发表一下我个人的意见 浅显的把我所理解的原码 反码和补码的知识总结一下 一来可以给不懂的人来点启示 二来也可以

    2026年3月26日
    1
  • 三分钟构建私有云平台Nano

    三分钟构建私有云平台Nano相信很多开发人员或者学习互联网人员都会安装虚拟机来学习 一般常用的虚拟化软件是 vmwareworkst virtualbox KVM 等虚拟化工具来满足自己测试虚拟机的要求 01Nano 介绍今天我推荐一款更加轻量的虚拟机管理平台 那就是 NanoNano 是基于 KVM 技术 使用 Go 语言开发 简单易学的虚拟机管理软件 从 Web 管理门户 主机监控 镜像克隆到故障切换 功能完备 开箱即用 数分钟之内即可将您的服务器集群升级为云主机平台 这个软件摆脱了以往构建云平台的弊端 例如产品内部组件繁多 相

    2026年3月19日
    2
  • 启动打印服务bat_关闭文件与打印机服务 bat

    启动打印服务bat_关闭文件与打印机服务 bat重启打印机服务bat命令@echooffecho停止打印服务netstopSpoolerecho重新启动打印服务netstartSpoolerecho完成!!!!pause

    2026年2月26日
    9
  • Java volatile关键字作用「建议收藏」

    Java volatile关键字作用「建议收藏」当一个共享变量被volatile修饰时,它会保证修改的值立即被更新到主存“,这里的”保证“是如何做到的?和JIT的具体编译后的CPU指令相关吧?  volatile特性  内存可见性:通俗来说就是,线程A对一个volatile变量的修改,对于其它线程来说是可见的,即线程每次获取volatile变量的值都是最新的。  volatile的使用场景  通过关键字sychronize…

    2022年6月1日
    34
  • 驱动开发必备硬件知识「建议收藏」

    驱动开发必备硬件知识「建议收藏」综述:在嵌入式领域,可分为硬件开发和软件开发。对于软件开发又可分为底层开发(模块驱动编写,uboot,内核),上层开发(应用,QT)。作为一名软件驱动开发的工程师,我们不需要去设计硬件的原理图,PCB。我们只需看懂硬件开发人员提供的硬件模块时序就行了,但是我们应该也需了解如下硬件知识。      一)处理器     1,可分为通用处理器(单片机,ARM),数字处理器(DSP),其他专用处理器…

    2022年7月22日
    13

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号