.net core开发工具_github 爬虫

.net core开发工具_github 爬虫没有爬虫就没有互联网!爬虫的意义在于采集大批量数据,然后基于此进行加工/分析,做更有意义的事情。谷歌,百度,今日头条,天眼查都离不开爬虫。去开源中国和Github查询C#的爬虫项目,仅有…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

没有爬虫就没有互联网!

爬虫的意义在于采集大批量数据,然后基于此进行加工/分析,做更有意义的事情。谷歌,百度,今日头条,天眼查都离不开爬虫。

去开源中国和Github查询C#的爬虫项目,仅有几个非常简单或是几年没有更新的项目。

而单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,反而有开发上的优势(得益于世界上最强大的IDE)。爬虫性能瓶颈大多是在并发下载(网速)、IP池,那么为什么.NET没有一个强大的爬虫框架呢?

说真的我不知道,可能爬虫框架核心上比较简单,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。

所以,今天推荐一个.NET 爬虫的开源项目:DotnetSpider

开源项目地址:
https://github.com/dotnetcore/DotnetSpider

.net core开发工具_github 爬虫

免责申明:本框架如同 Python 下著名的 Scrapy 一样只是为了帮助开发人员简化开发流程、提高开发效率,请勿使用此框架做任何违法国家法律的事情。使用者所做任何事情也与本框架的作者无关。

设计图

.net core开发工具_github 爬虫

框架设计

参考的webmagic,所以整体架构上没有什么大的变化,设计图如下(图片是直接从webmagic上拿的)

.net core开发工具_github 爬虫

  • Scheduler:负责URL的调度、去重,可以实现如Queue, PriorityQueueScheduler, RedisScheduler(可用于分布式)等等

  • Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等

  • PageProcesser: 负责HTML解析、目标URL的选择

  • Pipeline: 负责数据的存储, 已实现文件存储, MySql存储, MySqlFile存储(脚本),MSSQL存储,MongoDb存储, 更多存储期待您的贡献

优点

  • 可以使用Json定义爬虫

  • 可以使用实体类+Attrbiute定义爬虫

  • 自动创建数据库、数据表

  • 支持 .NET CORE,可以跨平台

  • 支持ADSL拨号换IP:如果所有爬虫统一部署, 可以实现单台机器同时运行多个任务拨号互不影响、或者一个路由下面多个电脑下多个任务拨号互不影响

  • 支持自定义代理池

  • 有管理平台

如果你也有好的开源项目,欢迎推荐!

微信号联系:westbrook12000(ps:加好友请备注“开源”)

.net core开发工具_github 爬虫

.net core开发工具_github 爬虫

回复 【小程序】获取15套小程序源码【学习+实战+赚钱】

回复 【关闭】学关闭微信朋友圈广告

回复 【实战】获取20套实战源码

回复 【福利】获取最新微信支付有奖励

回复 【被删】学查看你哪个好友删除了你巧

回复 【访客】学微信查看朋友圈访客记录

回复 【python】学微获取全套0基础Python知识手册

.net core开发工具_github 爬虫

还需要Pandownload?阿里云网盘来了(附注册教程)

.net core开发工具_github 爬虫

副业刚需,个人开发者如何通过小程序变现?已经有朋友变现月入4k了!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/193670.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • php号码归属地查询源码,手机号码归属地查询

    php号码归属地查询源码,手机号码归属地查询手机号码归属地查询请输入你要查询的手机号码:”.$phone.”属于”.getphone($phone).””;}}?>//function.php文件session_start();functionupdate($num,$info){$dbpath=”xiaolin/”;$len=strlen($num);if($len<7){return”手机号码最低7位哦”;}…

    2022年7月22日
    13
  • landsat 卫星波段组合以及envi下的展示

    landsat 卫星波段组合以及envi下的展示LandsatTM(ETM+)7个波段可以组合很多RGB方案用于不同地物的解译,Landsat8的OLI陆地成像仪包括9个波段,可以组合更多的RGB方案。OLI包括了ETM+传感器所有的波段,为了避免大气吸收特征,OLI对波段进行了重新调整,比较大的调整是OLIBand5(0.845–0.885μm),排除了0.825μm处水汽吸收特征;OLI全色波段Band8波段范围较窄,这种方式

    2022年7月23日
    8
  • JS一维数组转化为三维数组有这个方法就够了

    JS一维数组转化为三维数组有这个方法就够了一个方法搞定 js 一维数组转化三维数组

    2025年8月23日
    2
  • Hibernate二级缓存适用场景[通俗易懂]

    Hibernate二级缓存适用场景[通俗易懂]Hibernate二级缓存适用场景1.什么样的数据适合存放到第二级缓存中?1)很少被后台修改的数据,这里指的是前台后台使用了不同的orm实现,如一个用的hibernate加二级缓存,一个用的jdbc(前台用户可以修改,修改后会同步到缓存中)2)不是很重要的数据,允许出现偶尔并发的数据3)访问量大,不会被并发访问的数据,如个人资料4)

    2022年5月24日
    41
  • 玄门日诵早坛功课经注解_玄门日诵晚课经文

    玄门日诵早坛功课经注解_玄门日诵晚课经文加“◎”处十方韵功课中一般不诵,诸括号内为各部分名称,亦不诵此为在青羊宫董至光道长手打版本的基础上,我参照西安万寿八仙宫念诵音频加以断句与别字修正后的版本,太上玄门日诵早课仙经[澄清韵]琳琅振响十方肃清河海静默山岳吞烟万灵振伏招集群仙天无氛秽地无妖尘冥慧洞清大量玄玄也[举天尊]大罗三宝天尊◎[小提纲]灵音到处灭罪消愆宝号宣时扶危救难将当有开坛演教之偈仰劳道众随声应和[双吊挂]上坛齐举

    2025年7月16日
    2
  • java编译过程_Java编译运行过程

    java编译过程_Java编译运行过程Java编译运行过程在上一篇文章中,我们了解了第一个Java入门程序,以及如何编译和运行第一个Java程序。本文主要了解以下编译和运行Java程序时会发生什么。此外,我们还会分析一些常见的问题。1Java程序编译过程在编译时,Java文件由Java编译器(它不与底层操作系统交互)将Java代码转换为字节码(.class)。2Java程序运行过程在Java程序运行中,会执行以下步骤:类加载器(C…

    2022年4月30日
    41

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号