网页死链检测方法「建议收藏」

网页死链检测方法「建议收藏」 了解测试方法之前,先了解下死链、链接的相关概念死链的种类协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链, 常见的如404、403、503状态等。 内容死链:服务器返回状态是正常的, 但内容已经变更 为不存在、已删除或需要权限等与原内容无关的信息页面。死链出现的原因网站目录更换。 服务器里某个文件移动了位置或者删除。 网站服务器设置错误。 动态链接在数据…

大家好,又见面了,我是你们的朋友全栈君。

 

了解测试方法之前,先了解下死链、链接的相关概念

  • 死链的种类
  1. 协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,
    常见的如404、403、503状态等。
  2. 内容死链:服务器返回状态是正常的,
    但内容已经变更
    为不存在、已删除或需要权限等与原内容无关的信息页面。
  • 死链出现的原因
  1. 网站目录更换。
  2. 服务器里某个文件移动了位置或者删除。
  3. 网站服务器设置错误。
  4. 动态链接在数据库不再支持的条件下。
  • 死链的影响
  1. 影响功能、用户体验。
  2. 减少搜索引擎的收录页面数量,降低网站在搜索引擎中的权重。
  3. 影响网站加载速度。
  4. 损伤网站的整体形象。
  • 链接的HTML 链接语法

a标签
通过使用 href 属性 – 创建指向另一个文档的链接;
<a href="url">Link text</a>
通过使用 name 属性 – 创建文档内的书签。
<a name="label">锚(显示在页面上的文本)</a>

  • 链接可以是文本、图像,可以通过点击来跳转到新的目标。

    目标:

  1. 另一个网页;
  2. 相同网页上的不同位置;
  3. 图片、电子邮件地址、文件;
  4. 应用程序。

网页死链检测 是日常网页测试中的一个基本测试点,相关的测试方法记录如下:

【方法一】点点点

在手动的人工功能中去测试相关的链接是否正常。判断网页中属于链接的部分,点击并观察链接目标的正确性。

缺点:

  • 效率低:需要排除页面中的其他干扰项(非链接的文本、图片、按钮等),需要人工点击等待后判断,耗时耗力;
  • 人为失误:测试人员对经常迭代的常规测试项目容易形成思维定势,或者开发人员给出的改动范围并不全面,会导致死链被漏测。

【方法二】网页式的检测工具:站长工具

进入检测工具的网页,输入待检测网站的链接,点击查询。

优点:

  • 简单易用。

缺点:

  • 仅对线上环境有效;
  • 仅进行url的检测,不涉及其他网站元素、资源;
  • 仅可检测出协议死链;
  • 遍历检测的层数较浅,深度不够,子页面下的链接未继续检测。

【方法三】软件式的检测工具:Xenu工具

下载检测工具,输入待检测网站的链接(测试环境、线上环境均可),设置检测相关的设置,点击查询。

优点:

  • 全面:从待测网站的根目录开始搜索所有的网页文件并读取其中的所有的超级链接、图片文件、包含文件、CSS文件、页面内部链接等;
  • 高效:最大支持100线程,检测速度非常快;
  • 记录网站内文件不存在、指定文件链接不存在或者是指定页面不存在
    的问题链接和处于其所处的具体位置;
  • 可输出测试报告、设置邮件通知;
  • 有重新检查失败链接的功能。

检查报告中的状态分类:

  • 链接正常:ok、mail host ok;
  • 访问超时、无法访问:timeout、no connection、no such host;
  • 没有找到,即空链接:not found;
  • 没有对象返回,即空页面:no info to return;
  • 没有对象数据,常见于访问服务器出现400错误等访问出错情况:no object data。

缺点:

  • 不开源

【方法四】编程

如果用编程的手段来实现死链检测,你的实现思路会是怎样的?

[思路一] 爬虫思维

先遍历抓取所有相关链接,再判断链接有效性。

相关样例:

  • 【Python】多线程网站死链检测工具

     [项目地址](https://github.com/Flowerowl/pylinktester)
    

    思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测(基于python2)。

        设计点:
        1. 考虑设置线程数、爬取深度;
        2. 处理链接超时,设置超时访问次数;
        3. 保存爬取链接集合,检测时设置未访问链接集合,不重复检测;
        4. 记录日志,生成文件;
        5. 爬虫线程,采用广度优先算法。
    
  • 站点链接有效性检查的python脚本

     [项目地址](https://github.com/TronGeek/CheckLinks-Python)
    

    思路:根据response内的a标签,遍历获取所有页面链接,包括图片、js、css链接,检测返回值是否为200(基于python3)。

        设计点:
        1. 缺点:单线程和未设置爬取深度导致程序运行效率低且可能无法自行结束循环遍历;
        2. 输出csv日志表格文件;
        3. 考虑检测url,以及图片、js、css链接;
        4. 进行链接分类,过滤掉站外链接;
        5. 可设置登录配置;
        6. 可设置邮件通知。
    

[思路二] 逆向思维

先列举事先规定要检测的链接,再判断链接有效性。
思路:先配置好需要检测的网页资源,再进行检测,检测网页能否正常打开以及里面的资源是否记载正常。

      设计点:
      1. 通过添加需要检测的网页来快速检测特点的网页,针对性强(前提是你知道需要事先知道并配置好待检测网页的具体url)。

结论

以上的死链检测方法,各有优缺点,可以视具体的测试场景灵活使用。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163373.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Unity实战篇 | 教你怎样将Unity的启动Logo 设置成 自己制作的 帧动画[通俗易懂]

    Unity实战篇 | 教你怎样将Unity的启动Logo 设置成 自己制作的 帧动画[通俗易懂]上一篇文章我们讲了怎样在不购买专业版的情况下自定义Unity的启动Logo。那本篇文章就来介绍一下,怎样在去除默认Logo的前提下制作自己的启动动画!

    2022年6月5日
    211
  • 扒站工具Teleport Pro教程

    扒站工具Teleport Pro教程1.下载软件http://www.jb51.net/softs/44134.html2.安装3.界面先点开帮助点注册(类似于激活成功教程要不全站扒不全)下面请看ppt,http://www.docin.com/p-633879246.html阿西吧,麻麻再也不用担心我的网站了转载于:https://www.cnblogs.com/MagicZhao123/p/64…

    2022年9月8日
    0
  • 跨域是什么?[通俗易懂]

    跨域是什么?[通俗易懂]跨域指的是不同服务器之间不能相互访问各自的资源或者数据,这出于一个策略——“同源策略”,那么为什么要这么设计呢,这是因为,一些网站的数据可能涉及的用户的隐私,因此不属于当前服务器的网站时不能访问它的,就比如,我们登陆淘宝后,由不小心点进了其他的一个钓鱼网站,如果说不这么设置,那么钓鱼网站就可以获取到你的登陆账号和密码,进而可以达到使用你的账户购买东西的目的,因此跨域是出于安全的考虑而诞生的。实…

    2022年6月12日
    23
  • 天翼网关设置为桥接模式_天翼网关桥接模式

    天翼网关设置为桥接模式_天翼网关桥接模式前两年将家里的电信宽带升级到光纤,光猫也随之进行了升级,当时升级好后,电信工作人员介绍说新的光猫带有wifi功能,如果连接路由器可以不用配置路由器的拨号设置,说是升级到光纤后可以直接连接网线上网,不用再拨号了。当时也没怎么在意,网线连上路由器之后,果然没做宽带的账号设置就可以正常上网了。最近在使用一个软件客户端的时候需要设置宽带拨号的方式更换IP才能使用某个功能,然后才发现家里的宽带升级到光纤后,无法使用原来的拨号方式上网了。通过网络搜索,是因为升级光纤后,将连接的模式设置为路由模式,导致无法使用拨号上

    2025年7月15日
    2
  • postman安装使用教程—图文讲解

    postman安装使用教程—图文讲解后端开发神器postman。从未想过接口测试这么简单.简化Restful接口调用模式,支持10多种请求方式,如get、post、put、delete等等。并可以自动生成请求代码,包括主流的java,ajax等。

    2022年5月6日
    120
  • android 安装p12证书,如何在Android中使用p12证书(客户端证书)

    android 安装p12证书,如何在Android中使用p12证书(客户端证书)我试图在android中使用客户端证书。我得到了一个.p12文件,我想用它来对服务器进行身份验证。如何在Android中使用p12证书(客户端证书)我正在使用portecle将.p12文件转换为.bks文件,但我似乎没有得到它的工作。下面的代码:packagecom.pa1406.SECURE;importjava.io.InputStream;importjava.security.Ke…

    2022年6月26日
    90

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号