PHP蜘蛛爬虫开发文档

PHP蜘蛛爬虫开发文档

《我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言 》所使用的程序框架

编写PHP网络爬虫, 需要具备以下技能:

  • 爬虫采用PHP编写

  • 从网页中抽取数据需要用XPath

  • 当然我们还可以使用CSS选择器

  • 很多情况下都会用到正则表达式

  • Chrome的开发者工具是神器, 很多AJAX请求需要用它来分析

注意:本框架只能在命令行下运行,命令行、命令行、命令行,重要的事情说三遍 ^_^

第一个demo

爬虫采用PHP编写, 下面以糗事百科为例, 来看一下我们的爬虫长什么样子:

    $configs = array(
        'name' => '糗事百科',
        'domains' => array(
            'qiushibaike.com',
            'www.qiushibaike.com'
        ),
        'scan_urls' => array(
            'http://www.qiushibaike.com/'
        ),
        'content_url_regexes' => array(
            "http://www.qiushibaike.com/article/\d+"
        ),
        'list_url_regexes' => array(
            "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"
        ),
        'fields' => array(
            array(
                // 抽取内容页的文章内容
                'name' => "article_content",
                'selector' => "//*[@id='single-next-link']",
                'required' => true
            ),
            array(
                // 抽取内容页的文章作者
                'name' => "article_author",
                'selector' => "//div[contains(@class,'author')]//h2",
                'required' => true
            ),
        ),
    );
    $spider = new phpspider($configs);
    $spider->start();

爬虫的整体框架就是这样, 首先定义了一个$configs数组, 里面设置了待爬网站的一些信息, 然后通过调用$spider = new phpspider($configs);和$spider->start();来配置并启动爬虫.

运行界面如下:

PHP蜘蛛爬虫开发文档

$configs对象如何定义, 后面会作详细介绍.^_^


官方下载地址:https://github.com/owner888/phpspider

官方开发手册:https://doc.phpspider.org/

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/112625.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 精确度 召回率 f1_score多大了

    精确度 召回率 f1_score多大了目录混淆矩阵准确率精确率召回率分类是机器学习中比较常见的任务,对于分类任务常见的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1score、ROC曲线(ReceiverOperatingCharacteristicCurve)等。这篇文章将结合sklearn对准确率、精确率、召回率、F1score进行讲解,ROC曲线可以参考我的这篇文章…

    2022年10月15日
    0
  • mac idea 2021.5.4 激活码【在线注册码/序列号/破解码】

    mac idea 2021.5.4 激活码【在线注册码/序列号/破解码】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月18日
    36
  • navict+15+激活码 最新(注册激活)

    (navict+15+激活码 最新)最近有小伙伴私信我,问我这边有没有免费的intellijIdea的激活码,然后我将全栈君台教程分享给他了。激活成功之后他一直表示感谢,哈哈~https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~S32P…

    2022年3月26日
    39
  • delphi android 音乐播放器,Mcool音乐播放器

    delphi android 音乐播放器,Mcool音乐播放器Mcool音乐播放器APP是一款非常不错的手机音乐播放软件,用户可以使用该软件在线免费听大量好音乐,音质比较好,使用界面简洁明了,喜欢听音乐的朋友可以来西西下载Mcool音乐播放器APP使用!软件简介Windows受欢迎的Mcool音乐播放器,在很多用户要求下,终于推出安卓版本。只在一个月内,就很快从Windows版本复刻到安卓版本,这只有强大的Delphi能够做到。定位为“最简单的…

    2022年6月26日
    35
  • Burp Suite修改响应包字段

    Burp Suite修改响应包字段抓到包之后设置Action:dointercept->responsetothisrequest点击Forward即可

    2022年5月10日
    68
  • keil如何生成bin文件_keil4生成bin文件

    keil如何生成bin文件_keil4生成bin文件如何利用KEIL生成bin文件并且用于固件更新?生成bin文件KEIL在编译完成后在Object目录下生成axf文件,我们可以使用fromelf工具将axf文件转化为bin文件。在User选项卡中可以看到如果勾选了Run#1选项,那么在编译完成之后(AfterBuild/Rebuild),就会执行该选项下的命令。接下来详细的探讨利用fromelf.exe转换工具是如何生成bin文件的。首先我们了解fromelf.exe转换工具的语法其格式如下:fromelf[…

    2022年10月20日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号