php采集程序的方法有哪些_php采集插件

php采集程序的方法有哪些_php采集插件php采集程序的方法在我们程序开发的过程中是经常要遇到的,那我们常用的采集方法有哪些呢,下面我们一起来看具体的方法,还附带有具体实例,让大家一看就明白,会用。方法一:file_get_contents($url);$url=”http://www.seostudying.com”;$con=file_get_contents($url); //采集到的内容将存储到$c

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

php采集程序的方法在我们程序开发的过程中是经常要遇到的,那我们常用的采集方法有哪些呢,下面我们一起来看具体的方法,还附带有具体实例,让大家一看就明白,会用。

方法一:file_get_contents($url);
<?php
$url = “http://www.seostudying.com”;
$con = file_get_contents($url);  //采集到的内容将存储到$con里面
echo $con;
?>

方法二、使用 curl 来进行采集
使用 curl 来采集数据比 file_get_contents 更加灵活,现在很多网页做了防采集的措施,如果直接使用 file_get_contents 来进行采集的话,将无法成功
但是使用 curl 将没有这种问题,curl 可以模拟浏览器信息进行采集。
以下是使用 curl 进行采集的实例,其中 curl_setopt 是常用到的几项设置,请根据需要选择。
<?php
$url = “http://www.seostudying.com”;
$useragent = “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)”;
$header = array(‘Accept-Language: zh-cn’,’Connection: Keep-Alive’,’Cache-Control: no-cache’);
$ch = curl_init();  //初始化 curl
curl_setopt($ch, CURLOPT_REFERER, $url);
curl_setopt($ch,CURLOPT_HTTPHEADER,$header);  //模拟浏览器的头信息
curl_setopt($ch, CURLOPT_USERAGENT, $useragent);  //模拟浏览器的信息
curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);  //是否保存采集内容
curl_setopt($ch, CURLOPT_TIMEOUT, 60);  //curl允许执行的最大时间,单位是秒
curl_setopt($ch, CURLOPT_URL, $url);  //要采集的网址
curl_setopt($ch, CURLOPT_HEADER, 1); //是否要保存头信息
$con = curl_exec($ch);  //采集到的内容将存储到$con里面
echo $con;
?>

方法三、使用网上非常流行的snoopy来进行采集

这是一个非常强大的采集插件,并且它的使用非常方便,你也可以在里面设置agent来模拟浏览器信息。
<?php
require(‘Snoopy.class.php’); //引入snoopy的类文件
$snoopy = new Snoopy;        //初始化snoopy类
$url = “http://www.seostudying.com”;
$snoopy->fetch($url);        //开始采集内容
$con = $snoopy->results;    //保存采集内容到$con
echo $con;
?>
上面的3种方法就是我们使用PHP来进行采集常常用到的几种方法,其中snoopy是最简单的,当然在实际使用的时候可能需要根据实际情况组合使用,这几个例子都只是最基本的采集代码,在运用的时候你需要根据个人需求添加相应的正则来提取所需的内容。
我在做采集程序的时候碰到的几个问题主要有以下几种:
1.PHP程序的30秒的超时问题,解决的办法是在采集代码之前加 set_time_limit(0); 0代表不限制
2.采集的时候返回结果为403,此时你需要检查自己的代码是否模拟了浏览器信息。
3.对方网站加密,采集回来的是一堆乱码,这个一般情况比较少。
采集程序实际上原理通过程序模拟人工访问网站的步骤,把打开的网页保存到本地,然后通过正则来提取自己想要的内容。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/234273.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • strlen和sizeof的差别

    strlen和sizeof的差别

    2021年12月10日
    47
  • CPU内核态和用户态的区别[通俗易懂]

    CPU内核态和用户态的区别[通俗易懂]内核态:cpu可以访问内存的所有数据,包括外围设备,例如硬盘,网卡,cpu也可以将自己从一个程序切换到另一个程序。用户态:只能受限的访问内存,且不允许访问外围设备,占用cpu的能力被剥夺,cpu资源可以被其他程序获取。指令划分特权指令:只能由操作系统使用、用户程序不能使用的指令。举例:启动I/O内存清零修改程序状态字设置时钟允许/禁止终端停机非特权指令:用户程序可以使用的指令。举例:控制转移算数运算取数指令访管指令(使用户程序从用户态陷入内核态)特权级别R0相当于.

    2022年9月17日
    2
  • 求最大公约数和最小公倍数的算法[通俗易懂]

    求最大公约数和最小公倍数的算法[通俗易懂]在刷题的过程中,经常会遇到很多关于最小公倍数和最大公约数的问题。以下是用C语言写的求最大公约数和最小公倍数的算法。最大公约数。求最大公约数有三种算法。1、辗转相除法。   辗转相除法又称为欧几里德算法。这个方法大家已经都已经在数学上学过了。具体的步骤就是:用较小数除较大数,再用出现的余数(第一余数)去除除数,再用出现的余数(第二余数)去除第一余数,如此反复,直到最后余数是…

    2022年5月13日
    49
  • 微博java SDK介绍及使用说明

    微博java SDK介绍及使用说明

    2021年9月4日
    59
  • c++读写锁实现_设计模式PDF

    c++读写锁实现_设计模式PDFC++读写锁设计允许读数据同时进行,但与写数据是互斥的存在,只有读数据操作所有完成后释放锁才允许写。反之亦成立。自旋式读写锁,减轻使用者的释放锁的烦恼,当自旋读写锁超出作用域则会自动释放锁。

    2022年8月12日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号