用curl抓取网站数据,仿造IP、防屏蔽终极强悍解决方式

用curl抓取网站数据,仿造IP、防屏蔽终极强悍解决方式原文链接:http://blog.csdn.net/linglongwunv/article/details/8116359最近在做一些抓取其它网站数据的工作,当然别人不会乖乖免费给你抓数据的,有各

大家好,又见面了,我是你们的朋友全栈君。

 

最近在做一些抓取其它网站数据的工作,当然别人不会乖乖免费给你抓数据的,有各种防抓取的方法。不过道高一尺,魔高一丈,通过研究都是有漏洞可以钻的。下面的例子都是用PHP写的,不会用PHP来curl的孩纸先学习一下这块再往下看。

      下面言归正传,先说一种常见的方式,伪造来源IP,这也是好多刷票朋友常用的方法:

1、简单一点的可以在header伪造X-FORWARDED-FOR,并伪造referer,代码如下:

curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:111.222.333.4','CLIENT-IP:111.222.333.4'));
curl_setopt($ch, CURLOPT_REFERER,"http://www.test.com");

2、上面的方法大多数能糊弄过去,但也有抓到了真实IP的。就使用代理,麻烦在于你有一个有效的代理ip和端口号,有的还需要用户名密码,代码如下:

 

curl_setopt($ch, CURLOPT_PROXY,"http://111.222.333.4:110");

      另外还有一种情况,就是用浏览器可以访问,用curl就是不行,发现对方检查了useragent,如果没有就认为是抓取等非法来源,那么我们就自己在header加上useragent,代码如下:

 

curl_setopt($ch, CURLOPT_USERAGENT,"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");

啦啦啦,完工~

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/154312.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 关于IP网络号和主机号的原理「建议收藏」

    关于IP网络号和主机号的原理「建议收藏」网络号和主机号具体怎么弄出来的? ? ? ? 1、标准分类的ip地址的网络号是, A类是前8位 B类是前16位 C类是前24位 举一个例子 如172.16.10.2,因为172.16.10.2是B类地址,所以172.16所代表的位就是网络号的位,后面10.2代表的位是主机位,A类C类和例子结构相同,就是位数不同。 2、如果不是标准的ip地址,就是要划子网的,

    2022年6月24日
    18
  • Python用subprocess的Popen来调用系统命令

    Python用subprocess的Popen来调用系统命令

    2021年9月6日
    186
  • 视频直播技术详解之采集[通俗易懂]

    视频直播技术详解之采集[通俗易懂]声明:本文为CSDN原创投稿文章,未经许可,禁止任何形式的转载。作者:七牛云责编:钱曙光,关注架构和算法领域,寻求报道或者投稿请发邮件qianshg@csdn.net,另有「CSDN高级架构师群」,内有诸多知名互联网公司的大牛架构师,欢迎架构师加微信qshuguang2008申请入群,备注姓名+公司+职位。随着互联网用户消费内容和交互方式的升级,支撑这些内容和交互方式的基…

    2022年7月24日
    20
  • css绝对定位的参照物是什么_css 清除上定位

    css绝对定位的参照物是什么_css 清除上定位css绝对定位的重新认知所谓的css绝对定位,就是position:absolute;这里记录一个我的错误认知,就是绝对定位的参照物是内容,还是内容+内边距,我一直以为参照物就是内容,但是实际上参照物是内容+内边距看看下面的事例<!DOCTYPEhtml><html><head><metachars…

    2025年7月28日
    0
  • javascript 匿名函数_定义匿名函数的关键字是

    javascript 匿名函数_定义匿名函数的关键字是JavaScript匿名函数介绍:匿名函数顾名思义指的是没有名字的函数,在实际开发中使用的频率非常高。本文将对此介绍。

    2022年10月4日
    0
  • 卡方分布、t分布、F分布的期望与方差的计算「建议收藏」

    文章目录卡方分布卡方分布的期望和方差t分布t分布的期望和方差F分布F分布的期望和方差卡方分布设X1,X2,……Xn独立同分布,且服从公共分布N(0,1),则Y=X12+X22+……Xn2服从自由度为n的卡方分布.设X_1,X_2,……X_n独立同分布,且服从公共分布N(0,1),则Y=X_1^2+X_2^2+……X_n^2服从自由度为n的卡方分布.设X1​,X2​,……Xn​独立同分布,且服从公共分布N(0,1),则Y=X12​+X22​+……Xn2​服从自由度为n的卡方分布.卡方分布的期望和方

    2022年4月8日
    350

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号