python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。实测系统:30个线程(10个爬虫,20个检测)深度3MacOS64bit√CentOS64bit√Fedora1732bit√Windows764bit√思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。第一天,大致设计,…

大家好,又见面了,我是你们的朋友全栈君。

最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。

实测系统:

30个线程(10个爬虫,20个检测)

深度3

MacOS 64bit √

CentOS 64bit √

Fedora17 32bit √

Windows7 64 bit √

思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。

第一天,大致设计,确定模块和编码。

第二天,处理多线程,将list换成set

第三天,第四天整合爬虫线程和检测线程,处理未释放锁引起的阻塞,添加辅助功能,继续优化。

日志记录,链接超时,还有链接去重问题。

第五天,继续改bug,处理网页编码问题,继续整理,优化代码。

定时功能没有添加,考虑到可以使用windows的任务计划,或者linux的crontab

还有很多可以继续优化的地方,比如,当检测链接成百万的时候,把链接放入数据库中,或者放入hadoop里

运行程序方法:python main.py

运行效果图:

python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具

项目地址:https://github.com/Flowerowl/pylinktester

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/163370.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 二叉树 二叉搜索树_判断二叉树是否是二叉排序树

    二叉树 二叉搜索树_判断二叉树是否是二叉排序树原题链接一棵二叉搜索树可被递归地定义为具有下列性质的二叉树:对于任一结点,其左子树中所有结点的键值小于该结点的键值;其右子树中所有结点的键值大于等于该结点的键值;其左右子树都是二叉搜索树。所谓二叉搜索树的“镜像”,即将所有结点的左右子树对换位置后所得到的树。给定一个整数键值序列,现请你编写程序,判断这是否是对一棵二叉搜索树或其镜像进行前序遍历的结果。输入格式:输入的第一行给出正整数 N(≤1000)。随后一行给出 N 个整数键值,其间以空格分隔。输出格式:如果输入序列是对一棵二叉搜索树或

    2022年8月8日
    5
  • 点击率预估算法:FM与FFM[通俗易懂]

    点击率预估算法:FM与FFM[通俗易懂]点击率预估算法:FFM@(计算广告)[计算广告]点击率预估算法FFM1FM1背景11线性模型12二项式模型2FM21FM基本原理22数据分析23参数个数24计算时间复杂度25梯度26训练时间复杂度2FFM1背景及基本原理2模型与最优化问题21模型22最优化问题23自适应学习率24FFM算法的最终形式3完整算法流程31计算梯度32

    2022年4月30日
    81
  • Navicat Premium 15安装需要注意的几个细节

    Navicat Premium 15安装需要注意的几个细节关于软件的下载和激活的流程,网上有太多文章了,这里就不赘述了。主要记录几个细节问题:安装完NavicatPremium15后,激活之前一定不要打开它!打开它不一定有问题,但可以尽量避免后面的各种错误。 下载完成之后,安装解压的过程尽量在断网的情况下进行!不断网不一定有问题,但可以尽量避免后面出现各种问题!激活的过程中,如果没注意这两种,那可能就是经历什么rsapublickeynotfind,或者输入激活密钥有个红叉号等等各种各样的问题,为了避免一些不必要的麻烦,还是按顺序来吧,希望看到

    2022年10月9日
    2
  • 局域网广域网区别_局域网和广域网的简称

    局域网广域网区别_局域网和广域网的简称一、局域网 局域网(LocalAreaNetwork),简称LAN,是指在某一区域内由多台计算机互联成的计算机组。“某一区域”指的是同一办公室、同一建筑物、同一公司和同一学校等,一般是方圆几千米以内。局域网可以实现文件管理、应用软件共享、打印机共享、扫描仪共享、工作组内的日程安排、电子邮件和传真通信服务等功能。局域网是封闭型的,可以由办公室内的两台计算机组成,也可以由一个公司内的上千台计算

    2022年9月25日
    2
  • Python-selenium「建议收藏」

    Python-selenium「建议收藏」摘要:selenium用于python操作游览器,用代码的方式模拟人的操作。例如登陆模拟人输入数据,点击登陆button等。准备工作:1.安装一个游览器2下载游览器对应版本的驱动,chrom

    2022年7月5日
    22
  • java遍历ArrayList的四种方法[通俗易懂]

    java遍历ArrayList的四种方法[通俗易懂]java遍历ArrayList的各种方法

    2022年7月22日
    8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号