推荐专题：

1200字范文 > [开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计

[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计

时间：2019-06-05 03:51:19

相关推荐

[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计

一，为什么要造轮子

有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求，大多是JAVA，PYTHON甚至于还有NODEJS，C++，再或者在开源中国查询C#的爬虫，仅有几个非常简单或是几年没有更新的项目。从我看的一些文章来说，单纯性能上.NET对比JAVA，PYTHON并没有处于弱势，另根据我多年的开发经验大多爬虫性能瓶颈在并发下载（网速）、IP池，因此我认为用C#写一个爬虫框架绝对是可行的，那么为什么我大.NET没有一个强大的爬虫框架呢？说真的我不知道，可能爬虫框架核心上比较简单而没有被大牛看上，也可能.NET的开发人员没有别的语言的开发人员勤奋，或是.NET的开源氛围没有别的语言高。随着.NET开源消息的公布，我觉得是时候开发一个跨平台，跨语言的爬虫框架了。我不喜欢复杂的东西，总是觉得复杂的东西容易出问题，可能跟我个人能力有限，驾驭不了有关。所以设计DotnetSpider的时候是参考JAVA下一个轻量级爬虫框架webmagic，但是肯定有我自己的理解和改进在内的。此文是系列介绍第一篇，后面陆续会介绍详细用法及程序改动

另：个人代码水平有限，如果写得不好请大家指正海涵

二，框架设计

其实爬虫的设计我觉得还是挺成熟的，大部分都会拿出下图来说事，由于我是参考的webmagic，所以也少不得得贴上来给大家一看(图片是直接从webmagic上拿的)

Scheduler：负责URL的调度，可以实现如Queue,PriorityScheduler, RedisScheduler(可用于分布式)等等

Downloader:负责下载HTML，可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader，本地文件Downloader等等

PageProcesser:负责HTML解析及新的符合规则的URL解析，从上图可以看到传入Processer的是Page对象，里面包含了下载好的完整HTML或者JSON数据

Pipeline:负责数据的存储, 可以实现如MySql, MySqlFile，MSSQL，MongoDb等等

三，与别的爬虫的差异

使用JSON定义爬虫，所以可以最终实现跨语言（不同语言只要写一个JSON转换的provider就好）

由于使用JSON做解析，所以可以实现类中属性是别的类的情况（仅限MongoDB, 关系型数据库不好存这种数据）\

自动建表

有.NET CORE版本，因此可以跨平台（已经在LINUX下运行大量任务了）

有感于IP代理的不稳定性，因此代理模块没有细致测试使用，而是实现了另一种换IP手段（ADSL拨号）

加入基本的数据验证模块

四，最基本使用方法

最基本的使用方法是不需要引用Extension, 引用Common, Core, JLog就好，然后需要你自己实现IPipeline和Processer

五，高级使用方法

定义一个实体类，并在类上加合适的Attribute以便知道你要如何解析数据

定义一个SpiderContextBuilder类，在里面配置爬虫名字，线程数，Scheduler,downloader等等

在main中实类化你的爬虫类，调用run方法

五，代码地址

/zlzforever/DotnetSpider望各位大佬加星:)

六，有想参与的或疑问的请加群

希望有更多的人参与进来把这个爬虫做大做强

477731655

原文地址：/modestmt/p/5480773.html

.NET社区新闻，深度好文，微信中搜索dotNET跨平台或扫描二维码关注

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

.Net开源的跨平台爬虫框架 DotnetSpider

2023-06-29

推荐一款.NET Core开源爬虫神器：DotnetSpider

2024-09-07

发现一款.NET Core开源爬虫神器：DotnetSpider

2023-09-02

开源的跨平台的.NET机器学习框架ML.NET

2020-03-28

最近发布

名人故事：林志颖1200字

2024-09-07

培养内心强大的方法与实践

2024-09-07

给心情一个靠近春天的机会1200字作文

2024-09-07

1200字的摘抄

2024-09-07

幸福1200字作文

2024-09-07

尊严教学反思范文1200字

2024-09-07

秋日的呢喃：高一学生的1200字叙事作文

2024-09-07

城南旧事读后感：追忆往昔的温暖与思考

2024-09-07

读书之苦与乐1200字作文

2024-09-07

作文清明节扫墓 1200字

2024-09-07

推荐专题

晋级h级1200字培训总结关于质疑的作文1200字我与思维阅读1200字园艺与生活作文1200字乌克兰局势分析1200字阅兵观后感1200字关思亮书法1200字西兰花1200字作文作文1200字周末夏日的黄昏作文1200字美丽新宣汉1200字念1200字要多久上课睡觉的检讨1200字党史有感1200字立宪运动论文1200字