用curl抓取网站数据,仿造IP、防屏蔽终极强悍解决方式

用curl抓取网站数据,仿造IP、防屏蔽终极强悍解决方式原文链接:http://blog.csdn.net/linglongwunv/article/details/8116359最近在做一些抓取其它网站数据的工作,当然别人不会乖乖免费给你抓数据的,有各

大家好,又见面了,我是你们的朋友全栈君。

 

最近在做一些抓取其它网站数据的工作,当然别人不会乖乖免费给你抓数据的,有各种防抓取的方法。不过道高一尺,魔高一丈,通过研究都是有漏洞可以钻的。下面的例子都是用PHP写的,不会用PHP来curl的孩纸先学习一下这块再往下看。

      下面言归正传,先说一种常见的方式,伪造来源IP,这也是好多刷票朋友常用的方法:

1、简单一点的可以在header伪造X-FORWARDED-FOR,并伪造referer,代码如下:

curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:111.222.333.4','CLIENT-IP:111.222.333.4'));
curl_setopt($ch, CURLOPT_REFERER,"http://www.test.com");

2、上面的方法大多数能糊弄过去,但也有抓到了真实IP的。就使用代理,麻烦在于你有一个有效的代理ip和端口号,有的还需要用户名密码,代码如下:

 

curl_setopt($ch, CURLOPT_PROXY,"http://111.222.333.4:110");

      另外还有一种情况,就是用浏览器可以访问,用curl就是不行,发现对方检查了useragent,如果没有就认为是抓取等非法来源,那么我们就自己在header加上useragent,代码如下:

 

curl_setopt($ch, CURLOPT_USERAGENT,"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");

啦啦啦,完工~

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/154312.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月30日 下午11:00
下一篇 2022年6月30日 下午11:00


相关推荐

  • 决策引擎选购指南[通俗易懂]

    决策引擎选购指南[通俗易懂]决策引擎选购指南决策引擎或规则引擎的概念在2015年随着互联网金融行业的发展得到了快速普及,逐渐被各大公司接纳并入到企业基础设施中,用于集中管理高频多变的业务运营策略,相对于原先的硬代码维护的方式,有着便捷、高效、低成本的特点。市面上关于决策引擎的分享不少,但主要集中在技术层面的经验分享,比如如何从0到1搭建一套决策引擎,大家如果感兴趣也可以自行进行查阅。反而从公司层面出发,如何评估以及选择决策引擎的文章十分有限,从而导致了公司在采购的时候往往因为信息不对称而十分被动。因此,本文将从一位…

    2022年6月24日
    35
  • SeeDance Videos Generation API 对接说明

    SeeDance Videos Generation API 对接说明

    2026年3月13日
    1
  • Http请求URL长度限制[通俗易懂]

    Http请求URL长度限制[通俗易懂]http1.1协议原文http1.1协议中对url的长度是不受限制的,协议原文://https://www.ietf.org/rfc/rfc2616.txt3.2.1GeneralSyntax TheHTTPprotocoldoesnotplaceanyapriorilimitonthelengthofaURI.ServersM…

    2022年8月24日
    9
  • 特征工程

    特征工程

    2021年5月19日
    102
  • token身份认证机制(token怎么获取)

    目录1发展史2Cookie3Session3.1cookie和session的区别4Token4.1传统方式——基于服务器的验证4.2基于服务器验证方式暴露的一些问题4.3基于Token的验证原理4.5Tokens的优势参考文献1发展史1、很久很久以前,Web基本上就是文档的浏览而已,既然是浏览,作为服务器,不需要记录谁在某…

    2022年4月14日
    296
  • 运算放大器典型电路及原理

    运算放大器典型电路及原理1.运算放大器工作原理综述:  运算放大器组成的电路五花八门,令人眼花瞭乱,在分析运算放大器工作原理时倘没有抓住核心,往往令人头大。本文收集运放电路的应用电路,希望看完后有所收获。但是在分析各个电路之前,还是先回忆一下两个运放教材里必教的技能,就是“虚短”和“虚断”。“虚短”是指在分析运算放大器处于线性状态时,可把两输入端视为等电位,这一特性称为虚假短路,简称虚短。显然不能将两输入端真正短路。…

    2022年4月29日
    55

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号