抖音粉丝群1
『7x24小时有问必答』

AI浪潮下的计算机行业——从业者现状与未来展望
 
欢迎来到 Dotnet 工具箱!在这里,你可以发现各种令人惊喜的开源项目!

公众号内回复 上海找工作 
获取 2023 上海 .NET 公司列表。

RuiJi.Net

RuiJi.Net 是一个可以分布式部署的爬虫框架,使用 C# 开发,项目的最终目的是可以对大量的网站进行自动更新检查及抓取。
RuiJi.Net 支持自管理Cookie,并且自动维护不同浏览器标识的Cookie,这意味着您可以在使用独立IP的基础上,虚拟出任意多的Cookie. RuiJi.Net 同样支持使用抓取服务器上的IP进行轮询抓取,并且也可以使用代理服务器。
RuiJi.Net具有自己的抽取模型,称为RuiJi Expression(RuiJi表达式),您可以使用RuiJi表达式定义抽取模型,并对需要提取的元数据进行精确清洗。RuiJi 表达式可以存储为文本文档、数据库及高速缓存中。

如何使用

使用本地 IP
var crawler = new RuiJiCrawler();

var request = new Request("https://www.baidu.com");

var response = crawler.Request(request);
使用指定 IP
var crawler = new RuiJiCrawler();

var request = new Request("https://www.baidu.com");

request.Ip = "192.168.31.196";

var response = crawler.Request(request);
使用代理
var crawler = new RuiJiCrawler();

var request = new Request("https://www.baidu.com");

request.Proxy = new RequestProxy("223.93.172.248"3128);

var response = crawler.Request(request);
提取URL
var crawler = new RuiJiCrawler();

var request = new Request("https://www.oschina.net/blog");

var response = crawler.Request(request);

var content = response.Data.ToString();

var parser = new RuiJiParser();

var eb = parser.ParseExtract("css a.blog-title-link[href]\nexp https://my.oschina.net/*/blog/*");

var result = RuiJiExtractor.Extract(content, eb.Block);
提取标题
var crawler = new RuiJiCrawler();

var request = new Request("http://www.ruijihg.com/archives/category/tech/bigdata");

var response = crawler.Request(request);

var content = response.Data.ToString();

var parser = new RuiJiParser();

var eb = parser.ParseExtract(@"[tile]\ncss article:html

[meta]

#title

css .entry-header:text

#summary

css .entry-header + p:text

ex /Read more »/ -e"
);

var result = RuiJiExtractor.Extract(content, eb.Block);

项目地址

https://github.com/zhupingqi/RuiJi.Net

公众号内回复 上海找工作 
获取 2023 上海 .NET 公司列表。

分享
点收藏 
点点赞
点在看

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

上一主题上一主题         下一主题下一主题
QQ手机版小黑屋粤ICP备17165530号

Copyright 2010-2015. All rights reserved. 

微信公众号二维码 抖音二维码 百家号二维码 今日头条二维码哔哩哔哩二维码