网页死链检测方法「建议收藏」

网页死链检测方法「建议收藏」 了解测试方法之前,先了解下死链、链接的相关概念死链的种类协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链, 常见的如404、403、503状态等。 内容死链:服务器返回状态是正常的, 但内容已经变更 为不存在、已删除或需要权限等与原内容无关的信息页面。死链出现的原因网站目录更换。 服务器里某个文件移动了位置或者删除。 网站服务器设置错误。 动态链接在数据…

大家好,又见面了,我是你们的朋友全栈君。

 

了解测试方法之前,先了解下死链、链接的相关概念

  • 死链的种类
  1. 协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,
    常见的如404、403、503状态等。
  2. 内容死链:服务器返回状态是正常的,
    但内容已经变更
    为不存在、已删除或需要权限等与原内容无关的信息页面。
  • 死链出现的原因
  1. 网站目录更换。
  2. 服务器里某个文件移动了位置或者删除。
  3. 网站服务器设置错误。
  4. 动态链接在数据库不再支持的条件下。
  • 死链的影响
  1. 影响功能、用户体验。
  2. 减少搜索引擎的收录页面数量,降低网站在搜索引擎中的权重。
  3. 影响网站加载速度。
  4. 损伤网站的整体形象。
  • 链接的HTML 链接语法

a标签
通过使用 href 属性 – 创建指向另一个文档的链接;
<a href="url">Link text</a>
通过使用 name 属性 – 创建文档内的书签。
<a name="label">锚(显示在页面上的文本)</a>

  • 链接可以是文本、图像,可以通过点击来跳转到新的目标。

    目标:

  1. 另一个网页;
  2. 相同网页上的不同位置;
  3. 图片、电子邮件地址、文件;
  4. 应用程序。

网页死链检测 是日常网页测试中的一个基本测试点,相关的测试方法记录如下:

【方法一】点点点

在手动的人工功能中去测试相关的链接是否正常。判断网页中属于链接的部分,点击并观察链接目标的正确性。

缺点:

  • 效率低:需要排除页面中的其他干扰项(非链接的文本、图片、按钮等),需要人工点击等待后判断,耗时耗力;
  • 人为失误:测试人员对经常迭代的常规测试项目容易形成思维定势,或者开发人员给出的改动范围并不全面,会导致死链被漏测。

【方法二】网页式的检测工具:站长工具

进入检测工具的网页,输入待检测网站的链接,点击查询。

优点:

  • 简单易用。

缺点:

  • 仅对线上环境有效;
  • 仅进行url的检测,不涉及其他网站元素、资源;
  • 仅可检测出协议死链;
  • 遍历检测的层数较浅,深度不够,子页面下的链接未继续检测。

【方法三】软件式的检测工具:Xenu工具

下载检测工具,输入待检测网站的链接(测试环境、线上环境均可),设置检测相关的设置,点击查询。

优点:

  • 全面:从待测网站的根目录开始搜索所有的网页文件并读取其中的所有的超级链接、图片文件、包含文件、CSS文件、页面内部链接等;
  • 高效:最大支持100线程,检测速度非常快;
  • 记录网站内文件不存在、指定文件链接不存在或者是指定页面不存在
    的问题链接和处于其所处的具体位置;
  • 可输出测试报告、设置邮件通知;
  • 有重新检查失败链接的功能。

检查报告中的状态分类:

  • 链接正常:ok、mail host ok;
  • 访问超时、无法访问:timeout、no connection、no such host;
  • 没有找到,即空链接:not found;
  • 没有对象返回,即空页面:no info to return;
  • 没有对象数据,常见于访问服务器出现400错误等访问出错情况:no object data。

缺点:

  • 不开源

【方法四】编程

如果用编程的手段来实现死链检测,你的实现思路会是怎样的?

[思路一] 爬虫思维

先遍历抓取所有相关链接,再判断链接有效性。

相关样例:

  • 【Python】多线程网站死链检测工具

     [项目地址](https://github.com/Flowerowl/pylinktester)
    

    思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测(基于python2)。

        设计点:
        1. 考虑设置线程数、爬取深度;
        2. 处理链接超时,设置超时访问次数;
        3. 保存爬取链接集合,检测时设置未访问链接集合,不重复检测;
        4. 记录日志,生成文件;
        5. 爬虫线程,采用广度优先算法。
    
  • 站点链接有效性检查的python脚本

     [项目地址](https://github.com/TronGeek/CheckLinks-Python)
    

    思路:根据response内的a标签,遍历获取所有页面链接,包括图片、js、css链接,检测返回值是否为200(基于python3)。

        设计点:
        1. 缺点:单线程和未设置爬取深度导致程序运行效率低且可能无法自行结束循环遍历;
        2. 输出csv日志表格文件;
        3. 考虑检测url,以及图片、js、css链接;
        4. 进行链接分类,过滤掉站外链接;
        5. 可设置登录配置;
        6. 可设置邮件通知。
    

[思路二] 逆向思维

先列举事先规定要检测的链接,再判断链接有效性。
思路:先配置好需要检测的网页资源,再进行检测,检测网页能否正常打开以及里面的资源是否记载正常。

      设计点:
      1. 通过添加需要检测的网页来快速检测特点的网页,针对性强(前提是你知道需要事先知道并配置好待检测网页的具体url)。

结论

以上的死链检测方法,各有优缺点,可以视具体的测试场景灵活使用。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163373.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • css opacity属性_CSS中的opacity属性[通俗易懂]

    css opacity属性_CSS中的opacity属性[通俗易懂]cssopacity属性CSS|不透明度属性(CSS|opacityProperty)Withthegrowingneedofmakingwebsites,theneedforstylingthemhasalsoincreased.Therefore,CSShasbecomeanindispensablepartofcreating…

    2022年5月26日
    34
  • UCI数据集整理(附论文常用数据集)

    UCI数据集整理(附论文常用数据集)摘要:UCI数据集作为标准测试数据集经常出现在许多机器学习的论文中,为了更方便使用这些数据集有必要对其进行整理,这里整理了论文中经常出现的数据集,并详细介绍如何使用MATLAB将数据集文件整理成自己需要的格式以及如何使用数据集文件。要点如下UCI数据集介绍用程序整理数据集如何使用数据集文件点击跳转至UCI数据集下载页1.前言UCI数据集是一个常用的机器…

    2022年6月28日
    43
  • JAVA8 Collectors.groupingBy[通俗易懂]

    JAVA8 Collectors.groupingBy[通俗易懂]1.按长度对字符串进行分组List<String>list=Arrays.asList(“a”,”bb”,”cc”,”ddd”);Map<Integer,List<String>>result=list.stream().collect(Collectors.groupingBy(String::length));System.ou…

    2022年8月21日
    5
  • 几种运维工具的对比

    运维行业有句话:“无监控、不运维”,是的,一点也不夸张,监控俗称“第三只眼”。没了监控,什么基础运维,业务运维都是“瞎子”。所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要。有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,运维还需要背锅吗,所以作为一个运维工程师,如何构建一套监控系统是你的第一件工作。 …

    2022年4月8日
    110
  • LINUX软件的安装

    LINUX软件的安装

    2021年8月2日
    58
  • NeoKylin(中标麒麟)6.5 更新yum源「建议收藏」

    NeoKylin(中标麒麟)6.5 更新yum源「建议收藏」1.进入/etc/yum.repo.d目录:cd/etc/yum.repo.d2.将原来源文件重命名,例如:mvns6-adv-x86_64.repons6-adv-x86_64.repo.bak3.使用vim新编辑文件mirrors.163.com.repo:vimmirrors.163.com.repo,内容如下:[mirrors.163.com]name=mi…

    2022年8月10日
    41

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号