比垃圾分类更烧脑的网络爬虫分类，你要怎么搞？-网宿科技

7月1日，号称“史上最严”的垃圾分类条例在上海正式开始实施，据说每一个上海人，每天都要面对垃圾分类处阿姨的灵魂考验：你是什么垃圾？

垃圾分类有很多学问，就比如， “干垃圾”和“湿垃圾”的划分：

为什么湿纸巾是干垃圾？？

而干瓜子皮是湿垃圾？？

眼前的湿不是湿，你说的干是什么干？

奋力拼搏的不止是世界杯冠军，还有……

不过，垃圾分类是造福子孙后代的好事，虽然会一时的阵痛，但大家还是表示强烈支持。

然而，你知道吗？大名鼎鼎的网络爬虫（Bot）也是要分类管理的。网络爬虫（Bot），以机器模仿人类访问行为，实现自动化、大批量获取内容、数据，广泛地活跃于互联网中。

爬虫为什么要分类管理？

如果垃圾分类不当，会给垃圾处理和回收带来大量的工作量，对环境也造成不小的伤害，而爬虫如果分类不当，也会给网站带来很大危害。爬虫可以被用于很多场景，比如搜索引擎利用爬虫来抓取网页快照，提升网站权重和排名；一些黑灰产从业者，利用爬虫来进行刷票、批量获取网站核心内容。如若不分类，将会影响网站业务正常开展，所以，给爬虫分类势在必行。

奋力拼搏的不止是世界杯冠军，还有……

从性质上来看，爬虫分为善意爬虫（Good Bots）和恶意爬虫（Bad Bots）两大类。

爬虫种类细分

从行为上看，恶意爬虫有恶意注册爬虫、非法登录爬虫、活动作弊爬虫等影响网站正常业务开展。善意爬虫有如搜索引擎爬虫、网站流量监测和排名爬虫、网站在线监控服务爬虫、图片搜索引擎爬虫等，均有利于企业网站优化和推广的，需要区分对待。

从发展程度上看，爬虫又可以分为高级爬虫和低级爬虫两类。低级爬虫简单粗暴，容易识别；高级爬虫由低级爬虫演进，更加智能，不易识别。

根据网宿云安全平台数据显示，2018年91.9%的爬虫攻击属于高级爬虫攻击。

传统的反爬机制，大多采用“懒政一刀切”的方式，这种低效、粗暴的反爬机制，带来的是真金白银的损失和用户体验的急剧下降。反爬机制的核心，在于如何区分正常用户、善意爬虫和恶意爬虫。

网宿云安全的技术专家们，以他们多年来为各大平台保驾护航的攻防经验，为企业提供一些反爬虫的新思路。

奋力拼搏的不止是世界杯冠军，还有……

网宿云安全如何识别分类不同爬虫？

随着爬虫流量的爆发，各种检测防护技术也随之应运而生，包括请求限速、图片验证码、异常特征检测等方法，这些方法虽然在一定程度上可以缓解爬虫流量，但还是会存在一定的局限性。比如误杀和漏杀问题。网宿业务安全（Bot Guard）针对各类爬虫形成了多维度特征识别体系，以便对爬虫进行分类管理：

情报库

我们通过威胁情报库和善意Bot库来消除攻防信息不对等的问题。针对善意Bot，采用定期更新的的善意Bot库，确保每一类善意Bot能够被识别并放行。针对恶意Bot，利用大数据分析技术，基于内置的评分机制对历史威胁事件进行分析，形成不断更新的威胁情报库，以及时发现黑产信息并进行事前防御。

访问控制

通过访问限速、状态码限速、反复违规惩罚、黑白名单管理等常见手段，识别出爬虫的访问行为并及时阻断。

客户端特性挑战

传统的访问控制是根据IP请求次数是否超过阈值而进行控制，但在NAT环境或者办公网络环境下，多个用户共用同一个IP，就难以设定合理的阈值，容易产生误杀。

我们通过多维度客户端特征验证，为每一个客户端制定唯一的标识，对于非正常客户端特征的请求按指定处理方式进行处理。

陷阱挑战&人机交互挑战

爬虫始终是爬虫，终会露出“虫脚”，陷阱挑战和人机挑战就是利用爬虫的特性，从正常流量中“揪”出异常流量并加以阻断。

机器自学习

爬虫并非一成不变，黑灰产业已经在使用大数据和人工智能技术来绕过传统的反爬机制，因此识别手段也需要升级，Bot Guard基于对恶意爬虫行为的深度学习，能够精准识别出正常用户与恶意爬虫之间的微小差异，做到先于黑产一步。

交通运输业、生活服务、电商、资讯、金融等行业都是恶意爬虫攻击的重灾区，这里分享一起航司的案例：

曾有某航司官网每天遭受各类爬虫流量，包括搜索引擎、机票代理和第三方旅游平台等的爬虫，因一直无法清晰管理各类Bot，导致恶意Bot占用太多服务器资源，影响网站正常运营。

在不影响搜索引擎Bot工作，不影响第三方购票平台抓取信息，不影响机票经销商伙伴调用查询接口等情况下，网宿业务安全（Bot Guard）为该航司精确识别所有流量的实际来源，并且通过详细的日志和访问行为，加上业务场景深度学习等技术，为该航司制定了爬虫识别与管理策略，恶意爬虫得到了有效的控制，释放了服务器资源，保障了其官网的稳定运行。

爬虫千千万，网宿Bot Guard 为你精确识别、精准管理，坏爬虫请走开，好爬虫迎进来！

比垃圾分类更烧脑的网络爬虫分类，你要怎么搞？

热门产品

热门解决方案

热门产品与方案

快速入口

支持与服务

投资者关系

法律申明

关于网宿

联系我们

业务咨询