python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。实测系统:30个线程(10个爬虫,20个检测)深度3MacOS64bit√CentOS64bit√Fedora1732bit√Windows764bit√思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。第一天,大致设计,…

大家好,又见面了,我是你们的朋友全栈君。

最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。

实测系统:

30个线程(10个爬虫,20个检测)

深度3

MacOS 64bit √

CentOS 64bit √

Fedora17 32bit √

Windows7 64 bit √

思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。

第一天,大致设计,确定模块和编码。

第二天,处理多线程,将list换成set

第三天,第四天整合爬虫线程和检测线程,处理未释放锁引起的阻塞,添加辅助功能,继续优化。

日志记录,链接超时,还有链接去重问题。

第五天,继续改bug,处理网页编码问题,继续整理,优化代码。

定时功能没有添加,考虑到可以使用windows的任务计划,或者linux的crontab

还有很多可以继续优化的地方,比如,当检测链接成百万的时候,把链接放入数据库中,或者放入hadoop里

运行程序方法:python main.py

运行效果图:

python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具

项目地址:https://github.com/Flowerowl/pylinktester

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163370.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • clion永久激活码[最新免费获取]

    (clion永久激活码)好多小伙伴总是说激活码老是失效,太麻烦,关注/收藏全栈君太难教程,2021永久激活的方法等着你。https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~6EK6WKOHUX-eyJsaWNlbnNlSWQiOi…

    2022年3月28日
    59
  • <C++学习笔记>iterator C++

    <C++学习笔记>iterator C++

    2021年8月19日
    74
  • JAVA获取当前时间的三种方法

    JAVA获取当前时间的三种方法在Java中显示当前时间的三种方式,各有优缺点。

    2022年9月6日
    5
  • 验证码的作用,为什么要存在验证码[通俗易懂]

    验证码的作用,为什么要存在验证码[通俗易懂]攻击者攻击客户端的一些手法:1、在WEB站有时会碰到客户机恶意攻击,其中一种很常见的攻击手段就是“身份欺骗”,它通过在客户机端脚本写入一些代码,然后利用它,客户机在网站、论坛反复登录2、攻击者创建

    2022年7月1日
    26
  • debian系统版本查看_DEBIAN

    debian系统版本查看_DEBIANdebian官方默认只提供最新的版本下载,有时需要找一些旧的版本的debian,着实费用。下面这个debianiso镜像站可以下载各个版本的debian下载:debian系统各个版本ISO下载http://cdimage.debian.org/cdimage/archive/…

    2022年9月25日
    1
  • oracle的shutdown命令

    oracle的shutdown命令oracle的shutdown命令用来关闭当前实例,有4个可选参数:normal、transactional、immediate和abort。不带参数时默认是normal。这几个参数的差异体现在以下几个维度:是否允许新的连接;当前已连接的回话是否自动断开;当前未提交的事务是等待用户提交完成还是自动回滚;关闭时是否需要做检查点;启动时是否需要进行实例恢复。shutdownnormal:不允许新的连接、等待会话结束、等待事务结束、做一个检查点并关闭数据文件。启动时不需要实例

    2025年6月7日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号