产品动态 > 正文

爬虫泛滥,企业数据谁来守护?

2019-04-12

伴随互联网与信息技术的发展,数据的重要价值日益凸现,数据正成为各方抢夺的重要资源。

获取数据资源的方式有很多种,爬虫便是其最便捷的工具之一。当前,爬虫流量已经遍布各类网站,而越是重要数据集中的的地方,越是爬虫密布。而利用爬虫技术造成的个人数据泄露事件更是不时见诸报端。

百变爬虫的疯狂“侵略”

爬虫按照特定规则自动从互联网上抓取信息,可以帮助实施者快速获取大量有价值的数据。

网宿亮相中国数字化创新博览会,赋能智慧医药新发展

爬虫也有好坏之分,但受利益驱动,恶意爬虫越来越多,在爬取的过程中完全不控制爬取速率,用大量的代理IP地址来爬取数据,并且随着人工智能等技术应用于网络后,越来越智能的爬虫攻击开始模拟人的正常访问方式获取网站数据,躲避各类访问频率控制、验证码等反爬措施,达到攻击目的。

基于此,一些自身沉淀了大量数据的企业,成为爬虫侵扰的重灾区。例如:互联网房源信息会频繁被爬取用于所谓的数据分析,招聘网所有职位信息或简历等数据会被爬取用于售卖;酒店房间价格会被爬取用于比价等。

网宿亮相中国数字化创新博览会,赋能智慧医药新发展

面对五花八门的爬虫们,企业虽然会选择单IP访问限制、访问速率限制等策略来阻止爬虫的侵略,但多数还是难以招架。爬虫为企业带来了很大的压力,甚至导致业务无法正常运转。

智能爬虫要用智能手段来应对

如何将恶意爬虫拒之门外?关键在于精准识别真实用户流量和爬虫流量,并采取相应的管理措施。将数据分析与机器学习有效地结合起来应用于爬虫管理领域,才能更精准的识别恶意爬虫。

网宿业务安全(Bot Guard)基于情报库、访问控制、客户端特性挑战CFC、陷阱挑战TPC、人机交互挑战HIC、机器学习等智能识别与检测技术,对业务流量进行实时检测和分析,智能识别与区分真实用户流量、善意爬虫流量与恶意爬虫流量,针对不同爬虫流量采取相应的管理策略,保障企业业务稳定运行。

网宿亮相中国数字化创新博览会,赋能智慧医药新发展

爬虫技术在不断进化,黑灰产也在随时调整爬取策略,针对越来越智能的新型爬虫,网宿业务安全将海量数据汇总到大数据机器学习集群中,通过内置WML算法进行动态建模,结合多维度、上下文内容分析,以识别最新型的爬虫特征。

此外,通过对恶意爬虫的深度学习,网宿业务安全还可以利用恶意爬虫的一些特性来布设陷阱,诱导爬虫进入,达到“主动出击”的目的,从而更好的防住恶意爬虫,还企业一个健康的运营环境。

本文内容的版权持有者为网宿科技股份有限公司(“网宿科技”),未经许可,不得转载。