python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。实测系统:30个线程(10个爬虫,20个检测)深度3MacOS64bit√CentOS64bit√Fedora1732bit√Windows764bit√思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。第一天,大致设计,…

大家好,又见面了,我是你们的朋友全栈君。

最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。

实测系统:

30个线程(10个爬虫,20个检测)

深度3

MacOS 64bit √

CentOS 64bit √

Fedora17 32bit √

Windows7 64 bit √

思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。

第一天,大致设计,确定模块和编码。

第二天,处理多线程,将list换成set

第三天,第四天整合爬虫线程和检测线程,处理未释放锁引起的阻塞,添加辅助功能,继续优化。

日志记录,链接超时,还有链接去重问题。

第五天,继续改bug,处理网页编码问题,继续整理,优化代码。

定时功能没有添加,考虑到可以使用windows的任务计划,或者linux的crontab

还有很多可以继续优化的地方,比如,当检测链接成百万的时候,把链接放入数据库中,或者放入hadoop里

运行程序方法:python main.py

运行效果图:

python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具

项目地址:https://github.com/Flowerowl/pylinktester

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163370.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux虚拟机上网

    linux虚拟机上网虚拟机linux版本:redhat9.0总结一下:要保证虚拟机系统可以上网,得先解决虚拟机和真实主机的连接关系。VMware主要给出3种模式,我们常用的有“bridge(桥接)”和“Nat(网络地址转换)”方式。虚拟机设置方法:单击“虚拟机”→“设置”→“以太网,然后选择连接方式。    1.bridge(桥接):     将虚拟机网卡(本地连接)的IP地址和

    2022年5月12日
    50
  • 手机自动进程管理软件_进程管理器下载

    手机自动进程管理软件_进程管理器下载大家好,我是小小明,今天要带大家做一款简易的网页版进程管理器,最终效果如下:目标只要求能查看内存使用何cpu使用率即可。基础模块技术测试读取进程信息首先,我们可以使用psutil读取服务端的进程使用情况(包括内存和CPU):importpsutiln=psutil.cpu_count()infos=[]forprocinpsutil.process_iter(attrs=[‘memory_info’,’name’,’pid’]):info=proc.in

    2025年10月23日
    3
  • 【转载】How browsers work–Behind the scenes of modern web browsers (前端必读)

    【转载】How browsers work–Behind the scenes of modern web browsers (前端必读)

    2021年11月18日
    40
  • Fedora 12 环境搭建[通俗易懂]

    Fedora 12 环境搭建[通俗易懂]又来折腾发行版了。这一回是Fedora12,搞的挺艰难的下载了Fedora-12-i386-DVD.iso,无论使用ultraiso还是dd都无法安装。后来下载了一个ImageWriter.exe(o

    2022年7月3日
    31
  • 【从零开始自制CPU之学习篇02】555定时器

    【从零开始自制CPU之学习篇02】555定时器555定时器是一种集成电路芯片,常被用于定时器、脉冲产生器和震荡电路。在CPU制作中作为pc(程序计数器)的主要组成部分。以下是我购买的NE555实拍图:NE555的针脚示意图:555定时器各针脚

    2022年8月5日
    6
  • 基于STM32F4单片机对步进电机的控制(有代码)「建议收藏」

    基于STM32F4单片机对步进电机的控制(有代码)「建议收藏」步进电机是将电脉冲控制信号转变为角位移或线位移的一种常用的数字控制执行元件,又称为脉冲电机。在驱动电源的作用下,步进电机受到脉冲的控制,其转子的角位移量和速度严格地与输入脉冲的数量和脉冲频率成正比。步进电机每接收一个电脉冲,转子就转过一个相应的角度(步距角)。改变通电顺序可改变步进电动机的旋转方向;改变通电频率可改变步进电动机的转速。因此,通过控制输入电脉冲的数目、频率及电动机绕组的通电顺序就可以…

    2022年5月6日
    52

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号