CDN加速

产品动态 > 正文

辛苦拉票两星期,不如爬虫一小时?不会再有了

2019-05-31

日常,我们经常收到朋友圈里宝妈宝爸的拉票信息:“我的宝宝在参与XXX比赛,请给他投一票”。本来投票属于举手之劳,若是亲近的朋友,我们还会帮他们拉票、宣传,希望他们的宝宝能够脱颖而出。

但是,往往在投票的尾声阶段,我们会发现,选手中突然出现一匹”黑马“,票数在1小时之内暴增,原本辛苦维持的领先优势在短时间内被击溃,这究竟是为啥?

首批!网宿科技加入云边协同产业方阵

那是因为这些以不正常的速度达到短期内的票数飙升的,基本上都使用了刷票软件。

随着各种比赛投票活动的出现,对票数的巨大需求催生了各种刷票软件与程序的诞生,在搜索引擎搜索“刷票”,可以找到大量的刷票服务提供商。刷票软件利用自动化脚本和海量账号、IP,实现短时间内的大批量投票,速度非正常人可以比拟,所以…其实,你的宝宝是输给了“网络机器人”。

揭秘刷票灰产的运作模式

利用自动化程序进行刷票,已经是一个成熟的产业,分为人工刷票和机器刷票两种,人工刷票通常较贵,使用自动化程序,也就是我们平时所说的“爬虫”刷票,是较为普遍的方式。

为了限制刷票行为,投票平台通常都会采取一些措施,从简单到复杂,但大部分都可以被程序绕过:

限制客户端

这种方式最简单的做法就是投过票之后,选项变灰,无法继续投票。这种限制是通过修改客户端属性实现的,黑灰产破解的方法也是修改或删除客户端属性,或者直接往服务端发包,从而绕过限制。

User-Agent限制

有些投票显示“已投”之后,清除浏览器缓存再重启,或者换个浏览器,又可以重新投一次,这就是通过限制User-Agent实现的,只需要变换UA即可轻松绕过。

限制投票IP

IP限制是最常见的方式,平台会通过限制某个IP的投票次数来限制刷票党,服务端获取客户端IP通常有两种方式:

通过http header上携带的参数,但Http header极易伪造,这种方式也极易被绕过;

通过REMOTE_ADDR获取客户端客户端真实IP,但网上有许多代理IP池,海量IP随意使用,所以此方法也不可行。

图片验证码

图片验证码在一定程度上增加了爬虫刷票的难度,但其效果和用户体验成反比,而且不同类型的验证码都有成熟的方案可被绕过,有专业的打码平台甚至打出“AI打码”的旗号,通过人工智能和图像识别技术与网站验证码系统对抗。

首批!网宿科技加入云边协同产业方阵

限制账号

需要登录才能投票,一个ID只能投一票。

这种方式虽然在爬虫前进的道路上增加了一道门槛,但黑灰产同样可以使用爬虫,利用海量邮箱、手机号批量注册账号,再批量登录投票。

就这样,爬虫与反爬虫的战争,从简单粗暴,到运用人工智能等新兴技术,攻守双方都在不断变化、升级。

爬虫是个万金油

刷票,只是爬虫的一项功能,爬虫的用武之地还有很多,例如:

批量爬取资讯、信息类网站上的内容、图片;

抢购电商促销商品、优惠券,薅羊毛;

批量扫描服务器漏洞,寻找可以入侵的系统;

利用网络上泄露的用户名和密码实施撞库,进一步盗取数据和资产;

发动CC攻击;

一个有趣的现象,当黑客利用爬虫工具,批量扫描存在漏洞的服务器,再利用漏洞入侵网站系统,获取到系统管理员权限,就可以达到许多非法的目的。比如盗取用户数据,也就是我们俗称的“拖库”,随后将盗取的用户名、密码等数据用到其他网站或平台上,使用爬虫工具实施撞库攻击。直到将受害系统的价值利用殆尽,植入后门,以实现长期控制的目的,将系统变为肉鸡,用于挖矿、发动DDoS攻击……

安全问题是一环扣一环的,而爬虫在整个环节中占据重要的位置,可以说解决了爬虫的问题,许多其他的安全问题也将迎刃而解。

网宿智能爬虫防护

攻击与防御是相对的,既然攻击者已经开始运用机器学习和AI技术训练爬虫,自然也要以其人之道还治其人之身。

网宿早已将机器学习、AI、大数据分析等技术纳入到业务安全防护(Bot Guard)产品中,并且已经具备丰富的反爬经验。

例如,我们通过智能多维模型为每个客户端建立唯一的用户标识,以防止爬虫采用各种IP和UA伪装的方式绕过检查。

此外,我们通过学习平台上海量的恶意爬虫特征,根据不同行业所遭受的攻击特点,通过内置WML算法得出动态变化的识别模型,能够大大提升恶意爬虫识别的效率,并有效发现新型爬虫攻击。

与此同时,深度学习正常用户的访问行为,建立正常用户访问模型,以正常模型+异常模型双向识别的方式,进一步提升爬虫识别效率。

首批!网宿科技加入云边协同产业方阵

由于不同企业的业务模式不同,我们需要对企业业务先进行一段时间的学习,结合业务场景特征不断调整策略,生成最完美的防护模型。对智能爬虫防护模型来说,数据和样本就是它源源不断的养分,因此,随着使用时间的推移,我们的很多客户发现,恶意爬虫得到了越来越有效的控制,直至与业务保持完美的契合度。

目前,业务安全(Bot Guard)产品已经成功应用于电商、金融、生活服务、航空、票务、新闻资讯、政企等多个行业,保障各行各业客户免受爬虫侵扰。