python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。实测系统:30个线程(10个爬虫,20个检测)深度3MacOS64bit√CentOS64bit√Fedora1732bit√Windows764bit√思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。第一天,大致设计,…

大家好,又见面了,我是你们的朋友全栈君。

最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。

实测系统:

30个线程(10个爬虫,20个检测)

深度3

MacOS 64bit √

CentOS 64bit √

Fedora17 32bit √

Windows7 64 bit √

思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。

第一天,大致设计,确定模块和编码。

第二天,处理多线程,将list换成set

第三天,第四天整合爬虫线程和检测线程,处理未释放锁引起的阻塞,添加辅助功能,继续优化。

日志记录,链接超时,还有链接去重问题。

第五天,继续改bug,处理网页编码问题,继续整理,优化代码。

定时功能没有添加,考虑到可以使用windows的任务计划,或者linux的crontab

还有很多可以继续优化的地方,比如,当检测链接成百万的时候,把链接放入数据库中,或者放入hadoop里

运行程序方法:python main.py

运行效果图:

python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具

项目地址:https://github.com/Flowerowl/pylinktester

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163370.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • vue根据下标获取数组中的值_document.getElementBy

    vue根据下标获取数组中的值_document.getElementBy关于<Element*at0x******>如何查看标签中的数据fromlxmlimportetreeimportrequestsurl=’https://www.pearvideo.com/’#首页地址data={}headers={“User-Agent”:”Mozilla/5.0(WindowsNT10.0;Win64;x64)””AppleWebKit/537.36(K

    2022年9月4日
    6
  • spring cloud

    spring cloud

    2021年5月28日
    115
  • Bozz Nuster_Collectivum XXVIII

    Bozz Nuster_Collectivum XXVIII这篇文章主要讲的是在Libprotobuf-mutator与LibFuzzer联合使用的基础上,加上custommutator功能。首先需要明确的是为什么要这么做,那么假设b字段只有为”FUZZ”或”PWN”两个字符的时候才能进入下一个程序分支的情况,当然LibFuzzer也可以在代码覆盖率的加持下进入下一个程序分支,但如果你通过逆向的方式已经知道了这个关键点,难道还需要等LibFuzzer跑出这两个字符串吗?

    2022年9月13日
    0
  • 如何在PyCharm中配置Tensorflow环境[通俗易懂]

    如何在PyCharm中配置Tensorflow环境[通俗易懂]如何在Mac系统PyCharm中配置Tensorflow环境查看Python在Virtualenv虚拟环境中的路径进入Virtualenv根目录的bin文件夹:cd/Users/power/Desktop/xxx/virtualenv.py/bin执行命令:sourceactivatetensorflow执行命令:whichpython,会得到Python在Virtualenv中的路

    2022年8月26日
    2
  • PHP抖音SDK搭建问题整理

    PHP抖音SDK搭建问题整理

    2022年2月15日
    45
  • 背包问题九讲笔记_完全背包[通俗易懂]

    背包问题九讲笔记_完全背包[通俗易懂]摘自TianyiCui童鞋的《背包问题九讲》,稍作修改,方便理解。本文包含的内容:———————————————完全背包问题描述已知:有一个容量为V的背包和N件物品,第i件物品的重量是weight[i],收益是cost[i]。条件:每种物品都有无限件,能放多少就放多少。问题:在不超

    2022年7月13日
    12

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号