.net core开发工具_github 爬虫

.net core开发工具_github 爬虫没有爬虫就没有互联网!爬虫的意义在于采集大批量数据,然后基于此进行加工/分析,做更有意义的事情。谷歌,百度,今日头条,天眼查都离不开爬虫。去开源中国和Github查询C#的爬虫项目,仅有…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

没有爬虫就没有互联网!

爬虫的意义在于采集大批量数据,然后基于此进行加工/分析,做更有意义的事情。谷歌,百度,今日头条,天眼查都离不开爬虫。

去开源中国和Github查询C#的爬虫项目,仅有几个非常简单或是几年没有更新的项目。

而单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,反而有开发上的优势(得益于世界上最强大的IDE)。爬虫性能瓶颈大多是在并发下载(网速)、IP池,那么为什么.NET没有一个强大的爬虫框架呢?

说真的我不知道,可能爬虫框架核心上比较简单,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。

所以,今天推荐一个.NET 爬虫的开源项目:DotnetSpider

开源项目地址:
https://github.com/dotnetcore/DotnetSpider

.net core开发工具_github 爬虫

免责申明:本框架如同 Python 下著名的 Scrapy 一样只是为了帮助开发人员简化开发流程、提高开发效率,请勿使用此框架做任何违法国家法律的事情。使用者所做任何事情也与本框架的作者无关。

设计图

.net core开发工具_github 爬虫

框架设计

参考的webmagic,所以整体架构上没有什么大的变化,设计图如下(图片是直接从webmagic上拿的)

.net core开发工具_github 爬虫

  • Scheduler:负责URL的调度、去重,可以实现如Queue, PriorityQueueScheduler, RedisScheduler(可用于分布式)等等

  • Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等

  • PageProcesser: 负责HTML解析、目标URL的选择

  • Pipeline: 负责数据的存储, 已实现文件存储, MySql存储, MySqlFile存储(脚本),MSSQL存储,MongoDb存储, 更多存储期待您的贡献

优点

  • 可以使用Json定义爬虫

  • 可以使用实体类+Attrbiute定义爬虫

  • 自动创建数据库、数据表

  • 支持 .NET CORE,可以跨平台

  • 支持ADSL拨号换IP:如果所有爬虫统一部署, 可以实现单台机器同时运行多个任务拨号互不影响、或者一个路由下面多个电脑下多个任务拨号互不影响

  • 支持自定义代理池

  • 有管理平台

如果你也有好的开源项目,欢迎推荐!

微信号联系:westbrook12000(ps:加好友请备注“开源”)

.net core开发工具_github 爬虫

.net core开发工具_github 爬虫

回复 【小程序】获取15套小程序源码【学习+实战+赚钱】

回复 【关闭】学关闭微信朋友圈广告

回复 【实战】获取20套实战源码

回复 【福利】获取最新微信支付有奖励

回复 【被删】学查看你哪个好友删除了你巧

回复 【访客】学微信查看朋友圈访客记录

回复 【python】学微获取全套0基础Python知识手册

.net core开发工具_github 爬虫

还需要Pandownload?阿里云网盘来了(附注册教程)

.net core开发工具_github 爬虫

副业刚需,个人开发者如何通过小程序变现?已经有朋友变现月入4k了!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/193670.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 平台卡盟 平台卡盟_卡盟主站源码下载

    平台卡盟 平台卡盟_卡盟主站源码下载源码介绍:该源码对接宝塔API实现秒搭建主站功能,包括分站开通等都无需人工操作源码价值:****.**¥我也不知道值多少钱,反正修了很久才对接好宝塔接口跟各种问题,搞了好多天,时间长达3个月,不过不是连续修2个月,反正开始搞到现在搞了3个月多吧没有接好支付通道,想要运营的可以找我对接或者找别人对接安装说明服务器系统:Linux+Centos7.x+宝塔亲测环境:Nginx1.1…

    2022年8月13日
    6
  • webview长按复制_安卓手机怎么复制图片上的文字

    webview长按复制_安卓手机怎么复制图片上的文字有这么一个需求,用户在浏览文本信息时希望长按信息就能弹出复制的选项方便保存或者在别的页面使用这些信息。类似的,就像长按WebView或者EditText的内容就自动弹出复制选项。这里面主要是2个特点:1、用户只能浏览文本信息而不能编辑这些文本信息;2、用户对着文本信息长时间点按可以弹出”复制”选项实现复制;网上有好多种方法可实现,也比较零散,此处做个小结,希望有所帮助。1、通过继承EditTe…

    2022年9月29日
    3
  • rpm linux安装(linux安装mysql)

    linux下,如何安装rpm命令?更新时间:2019-05-2007:50最满意答案rpm默认就安装在了发行版本里,比如RedHat和centos。安装软件基本的用法是rpm-ivhxx.rpm。卸载软件的话,先rpm-qa|grepxx(待卸载的软件的关键字,如mysql)。然后rpm-exx。RPM是一种用于互联网下载包的打包及安装工具,它包含在某些Linux分发版中。它生成具…

    2022年4月15日
    46
  • zigbee协议栈OSAL分析

    zigbee协议栈OSAL分析本文从源程序出发,分享本人学习zigbee协议栈的一些理解,介绍zigbee协议栈OSAL任务调度及用户自定义任务的调度处理过程。为了便于抓住本质,理清思路,本文剔除一些无关部分。程序的入口是ZMain.c文件下的main(),是系统的主流程,核心为osal_init_system()(初始化操作系统)和osal_start_system()(启动操作系统)。在osal_init_system()中主要需要关注的是osalInitTasks()(初始化系统任务),该函数为tasksEvents[..

    2022年5月18日
    44
  • Python3取余不等于0(巨坑)[通俗易懂]

    Python3取余不等于0(巨坑)[通俗易懂]这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好!这是你第一次使用Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

    2022年4月25日
    91
  • hive正则匹配特殊字符(正则表达式字符串匹配)

    首先,中文字符集为’^[\\4e00-\\u9fa5]$’1.如果直接在Hive命令行中使用,则直接使用‘^[\\u4e00-\\u9fa5]$’进行匹配2.如果在终端调用,则需叫上转义符,如hive-e”select’中国’rlike‘^[\\\u4e00-\\\u9fa5]$’”3.在scala和java中使用同1;valre…

    2022年4月11日
    67

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号