CDN加速

产品动态 > 正文

比垃圾分类更烧脑的网络爬虫分类,你要怎么搞?

2019-07-03

7月1日,号称“史上最严”的垃圾分类条例在上海正式开始实施,据说每一个上海人,每天都要面对垃圾分类处阿姨的灵魂考验:你是什么垃圾?

垃圾分类有很多学问,就比如, “干垃圾”和“湿垃圾”的划分:

为什么湿纸巾是干垃圾??

而干瓜子皮是湿垃圾??

眼前的湿不是湿,你说的干是什么干?

网宿科技新互联网报告出炉,网购倾向具地域性

不过,垃圾分类是造福子孙后代的好事,虽然会一时的阵痛,但大家还是表示强烈支持。

然而,你知道吗?大名鼎鼎的网络爬虫(Bot)也是要分类管理的。网络爬虫(Bot),以机器模仿人类访问行为,实现自动化、大批量获取内容、数据,广泛地活跃于互联网中。

爬虫为什么要分类管理?

如果垃圾分类不当,会给垃圾处理和回收带来大量的工作量,对环境也造成不小的伤害,而爬虫如果分类不当,也会给网站带来很大危害。爬虫可以被用于很多场景,比如搜索引擎利用爬虫来抓取网页快照,提升网站权重和排名;一些黑灰产从业者,利用爬虫来进行刷票、批量获取网站核心内容。如若不分类,将会影响网站业务正常开展,所以,给爬虫分类势在必行。

网宿科技新互联网报告出炉,网购倾向具地域性

从性质上来看,爬虫分为善意爬虫(Good Bots)和恶意爬虫(Bad Bots)两大类。

爬虫种类细分

从行为上看,恶意爬虫有恶意注册爬虫、非法登录爬虫、活动作弊爬虫等影响网站正常业务开展。善意爬虫有如搜索引擎爬虫、网站流量监测和排名爬虫、网站在线监控服务爬虫、图片搜索引擎爬虫等,均有利于企业网站优化和推广的,需要区分对待。

从发展程度上看,爬虫又可以分为高级爬虫和低级爬虫两类。低级爬虫简单粗暴,容易识别;高级爬虫由低级爬虫演进,更加智能,不易识别。

根据网宿云安全平台数据显示,2018年91.9%的爬虫攻击属于高级爬虫攻击。

传统的反爬机制,大多采用“懒政一刀切”的方式,这种低效、粗暴的反爬机制,带来的是真金白银的损失和用户体验的急剧下降。反爬机制的核心,在于如何区分正常用户、善意爬虫和恶意爬虫。

网宿云安全的技术专家们,以他们多年来为各大平台保驾护航的攻防经验,为企业提供一些反爬虫的新思路。

网宿科技新互联网报告出炉,网购倾向具地域性

网宿云安全如何识别分类不同爬虫?

随着爬虫流量的爆发,各种检测防护技术也随之应运而生,包括请求限速、图片验证码、异常特征检测等方法,这些方法虽然在一定程度上可以缓解爬虫流量,但还是会存在一定的局限性。比如误杀和漏杀问题。网宿业务安全(Bot Guard)针对各类爬虫形成了多维度特征识别体系,以便对爬虫进行分类管理:

情报库

我们通过威胁情报库和善意Bot库来消除攻防信息不对等的问题。针对善意Bot,采用定期更新的的善意Bot库,确保每一类善意Bot能够被识别并放行。针对恶意Bot,利用大数据分析技术,基于内置的评分机制对历史威胁事件进行分析,形成不断更新的威胁情报库,以及时发现黑产信息并进行事前防御。

访问控制

通过访问限速、状态码限速、反复违规惩罚、黑白名单管理等常见手段,识别出爬虫的访问行为并及时阻断。

客户端特性挑战

传统的访问控制是根据IP请求次数是否超过阈值而进行控制,但在NAT环境或者办公网络环境下,多个用户共用同一个IP,就难以设定合理的阈值,容易产生误杀。

我们通过多维度客户端特征验证,为每一个客户端制定唯一的标识,对于非正常客户端特征的请求按指定处理方式进行处理。

陷阱挑战&人机交互挑战

爬虫始终是爬虫,终会露出“虫脚”,陷阱挑战和人机挑战就是利用爬虫的特性,从正常流量中“揪”出异常流量并加以阻断。

机器自学习

爬虫并非一成不变,黑灰产业已经在使用大数据和人工智能技术来绕过传统的反爬机制,因此识别手段也需要升级,Bot Guard基于对恶意爬虫行为的深度学习,能够精准识别出正常用户与恶意爬虫之间的微小差异,做到先于黑产一步。

交通运输业、生活服务、电商、资讯、金融等行业都是恶意爬虫攻击的重灾区,这里分享一起航司的案例:

曾有某航司官网每天遭受各类爬虫流量,包括搜索引擎、机票代理和第三方旅游平台等的爬虫,因一直无法清晰管理各类Bot,导致恶意Bot占用太多服务器资源,影响网站正常运营。

在不影响搜索引擎Bot工作,不影响第三方购票平台抓取信息,不影响机票经销商伙伴调用查询接口等情况下,网宿业务安全(Bot Guard)为该航司精确识别所有流量的实际来源,并且通过详细的日志和访问行为,加上业务场景深度学习等技术,为该航司制定了爬虫识别与管理策略,恶意爬虫得到了有效的控制,释放了服务器资源,保障了其官网的稳定运行。

爬虫千千万,网宿Bot Guard 为你精确识别、精准管理,坏爬虫请走开,好爬虫迎进来!