度量快速开发平台-专业、快速的软件定制快开平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 部件 流程 SQL
查看: 2039|回复: 3
打印 上一主题 下一主题

[分享] .net 爬虫框架技术选型

[复制链接]

182

主题

2120

帖子

4842

积分

论坛元老

Rank: 8Rank: 8

积分
4842
跳转到指定楼层
楼主
发表于 2020-6-20 18:54:12 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
个人认为爬虫框架分抓取框架和分析框架
1)抓取框架
.net 市面上好的似乎不多,选择要素分两种:1.轻量型,2.重量型。
1. 轻量型是可以定制一些特殊的功能或者插件开关形式。总体性能高,速度快。
   自己写的webclient,httprequest,httpclient等。或者直接socket编写!
2. 重量型是可以基本模式浏览器,更加傻瓜化,也基本屏蔽了一些反爬虫机制。
   如webbrower或者其他的webkit浏览器内核封装的.net框架。

抓取的特殊功能包括:cookie支持(默认),301自动跳转,https默认支持,gzip等压缩默认支持,自动多种方式识别编码,默认模拟浏览器header,模拟css和js执行等等。
当然越是功能强大,性能越差些,但是适应各种情况的能力越强(反爬虫能力),轻量型和重量型适应的抓取场景也都不一样。

技术选择:
HttpHelper(作者是收费的,看了源码,其实功能也不强大;自己也能做,只是原来写的http框架源码没了,急着用暂时用下)
scrapysharp 中的ScrapingBrowser
.net HttpWebRequest 简单封装下
.net webclient 简单封装下

2)分析框架
旧技术:正则表达式
新方式: scrapysharp,HtmlAgilityPack,CsQuery 等等(还有很多)
scrapysharp:扩展自HtmlAgilityPack,非常好用。(支持css选择器方式,快速上手)

HtmlAgilityPack:本来就好用,但是用的时候还是要进行部分算法处理。(支持xpath方式获取,快速上手)
百度一下,资料不少。

CsQuery:似乎对中文 的支持有bug,获取html的时候,中文会乱码,不知道为什么。(支持jq方式获取,快速上手)
https://github.com/jamietre/CsQuery


开源是一种态度,分享是一种精神,学习仍需坚持,进步仍需努力,.net生态圈因你我更加美好。

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

182

主题

2120

帖子

4842

积分

论坛元老

Rank: 8Rank: 8

积分
4842
沙发
 楼主| 发表于 2020-6-20 18:54:39 | 只看该作者
回复

使用道具 举报

542

主题

5916

帖子

1万

积分

作者

Rank: 7Rank: 7Rank: 7

积分
13589
板凳
发表于 2020-6-21 14:07:59 | 只看该作者
回复 支持 反对

使用道具 举报

235

主题

2547

帖子

5835

积分

论坛元老

Rank: 8Rank: 8

积分
5835
地板
发表于 2020-6-24 14:30:13 | 只看该作者
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|重庆度量科技  本站关键词:快速开发平台

GMT+8, 2024-11-30 17:38 , Processed in 0.149328 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表