爬虫415(UNsupported media type)问题解决

爬虫415(UNsupported media type)问题解决爬虫遇到的问题:这两天做爬虫遇到些问题,我在这里总结一下,希望能够和大家分享,共同学习,共同进步。今天在我爬某个网站的时候,返回的结果是415,不支持的媒体类型(Unsupportedmediatype),当时遇到这个问题的时候,我有点蒙,什么是媒体,在这里先不管他什么是媒体,反正就是报错,但是能肯定的是415错误肯定是请求的问题。那么我就开始顺着我的爬虫经验挨个排除。1、我的IP有没有被封

大家好,又见面了,我是你们的朋友全栈君。

爬虫遇到的问题:

这两天做爬虫遇到些问题,我在这里总结一下,希望能够和大家分享,共同学习,共同进步。


今天在我爬某个网站的时候,返回的结果是415,不支持的媒体类型(Unsupported media type),当时遇到这个问题的时候,我有点蒙,什么是媒体,在这里先不管他什么是媒体,反正就是报错,但是能肯定的是415错误肯定是请求的问题。那么我就开始顺着我的爬虫经验挨个排除。
1、我的IP有没有被封?
2、这个请求是post/get?
3、请求头是否正确?
4、参数都是否正确?
但凡要记住做爬虫要细心去研究请求过程。
1、IP绝对没有封,因为我用的是公司的代理,同时在我的浏览器上面可以访问,排除IP被封。
2、弄清楚这个请求是post/get请求,我确定了这个请求“http://cq.gsxt.gov.cn/gsxt/api/ebaseinfo/queryForm/“+pripid+”/1?currentpage=1&pagesize=5&t=”+System.currentTimeMillis();是get请求,排除post请求。
3、get请求和post请求在爬虫看来最大的差别就是,post请求参数都写在了请求地址的“?”后面,而get请求的参数要写在request请求类里面。问题到这我先把request.requestBody = null;这样get请求才不会受到之前做过post请求参数的干扰。把各种请求头信息都加上了(请求头不要写错了,千万不能带着问题区找问题),发现还是报Unsupported media type错误。这个时候我就开始怀疑我之前写的get请求是不是有多写请求信息的问题,才想到这个问题,这时候就看到我上一个get多写了几个请求信息,这里我要强调一下,由于不知道请求头信息那个是必要的,这时候做爬虫就要一个一个的去试,请求成功了之后一定要记得把之前写的多余的请求信息给去掉,不然会影响下面的请求(这个不是肯定,建议去掉多余的请求信息)。
4、参数是post特有的。


一个小小的问题困扰我了好久,工作效率就是这样慢慢积累起来的。关注我,我会经常更新关于爬虫时遇到的问题的。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/135344.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • b站的java教程怎么样(b站学java哪个好)

    Heyguys,这里是cxuan,欢迎你收看我最新一期的文章。这是一篇鸽了很久的文章。。。。。。事情还要从上回说起。。。。。。我爱B站!这篇文章我汇总了B站上计算机基础(操作系统、计算机网络、数据结构和算法、汇编等)学习视频,受到了很多小伙伴的认可和追更。甚至CSDN还有在催我更新的读者朋友所以这篇文章,不能再拖了,更新起来!!!Java基础Java基础:尚硅谷宋红康https://www.bilibili.com/video/BV1Qb411g7cz?from

    2022年4月15日
    156
  • mysql不配置环境变量可以吗_MySQL配置环境变量[通俗易懂]

    mysql不配置环境变量可以吗_MySQL配置环境变量[通俗易懂]如果不配置环境变量,每次登录MySQL服务器时就必须进入到MySQL的bin目录下,也就是输入“cdC:\ProgramFiles\MySQL\MySQLServer5.7\bin”命令后,才能使用MySQL等其它命令工具,这样比较麻烦。配置环境变量以后就可以在任意位置执行MySQL命令了,本节主要介绍怎样手动配置环境变量。MySQL如果不配置环境变量就只能在mys…

    2022年6月16日
    105
  • 复位信号 rst

    复位信号 rstaltera的触发器是低电平触发,所以建议使用rst_n,xilinx的触发器是高电平触发,所以建议使用rst,如果是rst_n,则会增加额外的非逻辑xilinx推荐:由于rst是一个高扇出网络,所以要尽量减少rst的使用,扇出太大会导致时序收敛困难。参考:https://blog.csdn.net/maowang1234588/article/details/103510605根据ff初始值和敏感信号列表中是否有rst(异步触…

    2022年10月1日
    0
  • awvs13使用教程_脚本网

    awvs13使用教程_脚本网你可以在以下渠道联系到我,转载请注明文章来源地址~知乎:Sp4rkWGITHUB:Sp4rkWB站:一只技术君博客:https://sp4rkw.blog.csdn.net/联系邮箱:getf_own@163.com文章目录前言核心接口仪表盘接口新增任务接口设置扫描速度启动扫描任务丝滑脚本前言最近在改reaper的awvs互动功能,因为自己的服务器垃圾,一次最多扫四个站,否则就卡死了。所以需要对现有的批量脚本进行修改处理。逻辑比较简单:拿到web资产,django异步启扫描任务从l

    2022年9月22日
    0
  • C语言基础[通俗易懂]

    C语言基础[通俗易懂]C语言基础

    2022年4月23日
    40
  • 长江商学院营销学李洋教授分析大数据与精准营销

    长江商学院营销学李洋教授分析大数据与精准营销  精准营销是大数据应用领域的重要课题之一,大数据时代的精准营销可以让企业以最小的营销成本获得最大的收益。那么我们如何利用企业大数据做精准营销呢? …

    2022年7月21日
    31

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号