网页死链检测方法「建议收藏」

网页死链检测方法「建议收藏」 了解测试方法之前,先了解下死链、链接的相关概念死链的种类协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链, 常见的如404、403、503状态等。 内容死链:服务器返回状态是正常的, 但内容已经变更 为不存在、已删除或需要权限等与原内容无关的信息页面。死链出现的原因网站目录更换。 服务器里某个文件移动了位置或者删除。 网站服务器设置错误。 动态链接在数据…

大家好,又见面了,我是你们的朋友全栈君。

 

了解测试方法之前,先了解下死链、链接的相关概念

  • 死链的种类
  1. 协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,
    常见的如404、403、503状态等。
  2. 内容死链:服务器返回状态是正常的,
    但内容已经变更
    为不存在、已删除或需要权限等与原内容无关的信息页面。
  • 死链出现的原因
  1. 网站目录更换。
  2. 服务器里某个文件移动了位置或者删除。
  3. 网站服务器设置错误。
  4. 动态链接在数据库不再支持的条件下。
  • 死链的影响
  1. 影响功能、用户体验。
  2. 减少搜索引擎的收录页面数量,降低网站在搜索引擎中的权重。
  3. 影响网站加载速度。
  4. 损伤网站的整体形象。
  • 链接的HTML 链接语法

a标签
通过使用 href 属性 – 创建指向另一个文档的链接;
<a href="url">Link text</a>
通过使用 name 属性 – 创建文档内的书签。
<a name="label">锚(显示在页面上的文本)</a>

  • 链接可以是文本、图像,可以通过点击来跳转到新的目标。

    目标:

  1. 另一个网页;
  2. 相同网页上的不同位置;
  3. 图片、电子邮件地址、文件;
  4. 应用程序。

网页死链检测 是日常网页测试中的一个基本测试点,相关的测试方法记录如下:

【方法一】点点点

在手动的人工功能中去测试相关的链接是否正常。判断网页中属于链接的部分,点击并观察链接目标的正确性。

缺点:

  • 效率低:需要排除页面中的其他干扰项(非链接的文本、图片、按钮等),需要人工点击等待后判断,耗时耗力;
  • 人为失误:测试人员对经常迭代的常规测试项目容易形成思维定势,或者开发人员给出的改动范围并不全面,会导致死链被漏测。

【方法二】网页式的检测工具:站长工具

进入检测工具的网页,输入待检测网站的链接,点击查询。

优点:

  • 简单易用。

缺点:

  • 仅对线上环境有效;
  • 仅进行url的检测,不涉及其他网站元素、资源;
  • 仅可检测出协议死链;
  • 遍历检测的层数较浅,深度不够,子页面下的链接未继续检测。

【方法三】软件式的检测工具:Xenu工具

下载检测工具,输入待检测网站的链接(测试环境、线上环境均可),设置检测相关的设置,点击查询。

优点:

  • 全面:从待测网站的根目录开始搜索所有的网页文件并读取其中的所有的超级链接、图片文件、包含文件、CSS文件、页面内部链接等;
  • 高效:最大支持100线程,检测速度非常快;
  • 记录网站内文件不存在、指定文件链接不存在或者是指定页面不存在
    的问题链接和处于其所处的具体位置;
  • 可输出测试报告、设置邮件通知;
  • 有重新检查失败链接的功能。

检查报告中的状态分类:

  • 链接正常:ok、mail host ok;
  • 访问超时、无法访问:timeout、no connection、no such host;
  • 没有找到,即空链接:not found;
  • 没有对象返回,即空页面:no info to return;
  • 没有对象数据,常见于访问服务器出现400错误等访问出错情况:no object data。

缺点:

  • 不开源

【方法四】编程

如果用编程的手段来实现死链检测,你的实现思路会是怎样的?

[思路一] 爬虫思维

先遍历抓取所有相关链接,再判断链接有效性。

相关样例:

  • 【Python】多线程网站死链检测工具

     [项目地址](https://github.com/Flowerowl/pylinktester)
    

    思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测(基于python2)。

        设计点:
        1. 考虑设置线程数、爬取深度;
        2. 处理链接超时,设置超时访问次数;
        3. 保存爬取链接集合,检测时设置未访问链接集合,不重复检测;
        4. 记录日志,生成文件;
        5. 爬虫线程,采用广度优先算法。
    
  • 站点链接有效性检查的python脚本

     [项目地址](https://github.com/TronGeek/CheckLinks-Python)
    

    思路:根据response内的a标签,遍历获取所有页面链接,包括图片、js、css链接,检测返回值是否为200(基于python3)。

        设计点:
        1. 缺点:单线程和未设置爬取深度导致程序运行效率低且可能无法自行结束循环遍历;
        2. 输出csv日志表格文件;
        3. 考虑检测url,以及图片、js、css链接;
        4. 进行链接分类,过滤掉站外链接;
        5. 可设置登录配置;
        6. 可设置邮件通知。
    

[思路二] 逆向思维

先列举事先规定要检测的链接,再判断链接有效性。
思路:先配置好需要检测的网页资源,再进行检测,检测网页能否正常打开以及里面的资源是否记载正常。

      设计点:
      1. 通过添加需要检测的网页来快速检测特点的网页,针对性强(前提是你知道需要事先知道并配置好待检测网页的具体url)。

结论

以上的死链检测方法,各有优缺点,可以视具体的测试场景灵活使用。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163373.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • win10中使用sqlserver2008r2 SQL Server 配置管理器[通俗易懂]

    win10中使用sqlserver2008r2 SQL Server 配置管理器[通俗易懂]win10打开sqlserver2008r2的SQLServer配置管理器,直接运行次文件就可:“C:\Windows\SysWOW64\SQLServerManager10.msc”在win10中是安装sqlserver2008r2,有时候安装成功之后会发现sqlserver的1433端口访问不了,通过sql语句查看端口号,发现找不到1433端口号–查询端口号

    2022年7月20日
    14
  • F分布的概率密度函数_F分布的统计量是

    F分布的概率密度函数_F分布的统计量是定义:设X1∼χ2(m),X2∼χ2(n)X_{1}\sim\chi^{2}(m),X_{2}\sim\chi^{2}(n)X1​∼χ2(m),X2​∼χ2(n),X1X_{1}X1​与X2X_{2}X2​相互独立,则称随机变量F=X1/mX2/nF=\frac{X_{1}/m}{X_{2}/n}F=X2​/nX1​/m​服从自由度为mmm及nnn的FFF分布,mmm称为第一自由度,n\boldsymbol{n}n称为第二自由

    2022年10月10日
    3
  • apache tomcat 闪退[通俗易懂]

    apache tomcat 闪退[通俗易懂]网上介绍了很多解决办法,下面是我自己的解决办法:1. 我的apache-tomcat是解压缩版(解压了后配置一下就可以用)。 路径:D:\apache-tomcat-8.0.5\ 2. 找到conf文件夹,打开server.xml文件,下拉右手边的滚动条至最下面。 3. 查看上面有没有配置。 4. 我原来有个项目在这个位置配置过,删除后,再运行就没有再出现闪退的

    2022年5月7日
    92
  • 空洞骑士debug使用教程_debug调试汇编程序

    空洞骑士debug使用教程_debug调试汇编程序

    2022年10月15日
    2
  • visifire笔记「建议收藏」

    visifire笔记「建议收藏」visifire是silverlight下很不错的一套开源组件,最近其发布了2.0beta版本,本文将主要记录一些这个版本跟以前版本不同的地方.昨天初步把1.55版本移植到了2.0beta,没有遇到太大的麻烦,不过确实还是进行一些细节的修改,这些更改看上去更合理了,很多东西都不用往children下硬塞,直接类似Serise.Add或者Titles.Add就可以了.由于visifir…

    2022年7月21日
    21
  • scp命令详解

    scp命令详解

    2021年10月15日
    32

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号