CDN加速

产品动态 > 正文

不怪微博,不怪思聪,要怪就怪爬虫

2018-11-14

“ 韩国仁川,韩国仁川,2018英雄联盟全球总决赛(S8)的冠军诞生了,王思聪老板的IG战队,在总决赛中拿了冠军,老板很开心,拿出113万与民同庆,凡是转发微博的,就有机会获得1万人民币现金!每人一万!每人一万!思聪牛逼!IG牛逼!”
从来不玩LOL的小编(老编),看到这则新闻之后,也按捺不住激动的内心,打开了万年不用的微博,为两千多万的转发贡献了自己的一份微薄力量。

结果可想而知,再一次成为分母。

历来都是中奖绝缘体的我,本来并没有太在意,直到细心的网友发现,在113位中奖者中,竟然只有一位男性,这引发了微博的公关危机,难道说微博抽奖重男轻女?

网宿科技再度获评“2018行业影响力品牌”

后来微博CEO王高飞发了这样的微博澄清了此事:

网宿科技再度获评“2018行业影响力品牌”

意思是,抽奖结果与性别无关,而与活跃度有关,而活跃度,是区分正常用户和机器人的一大指标。

微博抽奖时会对“机器人”账号降权处理,这些账号有明显的特征:只转发、不原创、没发过图等等。而由于女性比男性用户活跃,所以男性用户在抽奖时会吃亏一点。

然而愤怒的网友对这种说法并不买单,认为这种算法有失公平性,毕竟大部分用户上微博都是纯围观,这类的用户就被莫名地打上了“低质”的标签。

为什么会这样?
如果你有了解过以前的微博转发抽奖,你就会发现,现在的抽奖机制,其实已经比之前要成熟多了。

网宿科技再度获评“2018行业影响力品牌”

几年前的微博抽奖,无论是多小的活动,都能获得几万+转发,而细看转发用户,基本上都是一些“僵尸”号。在被大量僵尸号稀释了中奖概率之后,普通用户的中奖可能微乎其微。

那时的微博抽奖养肥了一大波羊毛大军,每个活动大牛手里几乎都拥有数十万+僵尸账号,搜寻活动、参与转发、设定转发语、填写中奖信息这些都能通过自动化工具实现,所获得的奖品,再通过其他渠道转卖出去。

这种自动化工具,就是我们常说的恶意爬虫(Bot)。

除了被用于转发抽奖之外,恶意爬虫还可被用于抢票、薅羊毛等场景中,除了直接给网站服务器带来大量的负载之外,更长远的影响是降低了活动的可靠性,降低品牌声誉,导致大量用户流失,严重的会引发品牌公关危机。

微博当然也意识到了这样的问题,大量的水军存在会破坏微博的生态,于是采取了一系列的措施来限制僵尸账号的活动。

网宿科技再度获评“2018行业影响力品牌”

这就是反爬虫程序,反爬虫程序的运作机制,就是要区分正常用户和机器人,这些都是通过一些预设的规则实现的:
▶ 比如黑产大军所使用的IP,是固定的那些,就通过限制IP的方式来限制爬虫的行为;
▶ 比如爬虫经常访问某几个URL,那就针对这些URL限制访问次数;
▶ 比如爬虫程序发送的请求头部与正常浏览器发出的请求差异较大,因此可以根据请求头部的异常特征来识别出Bot;
▶ 再不行,就祭出验证码,过滤掉那些笨笨的爬虫们。

网宿科技再度获评“2018行业影响力品牌”

然而规则并非100%完美的,由于爬虫在不断往智能化发展,基于IP、URL的频控策略较难配置合理的检测阈值,容易产生误杀或漏杀,目前很多爬虫工具可以伪造请求头部进而模拟浏览器请求,影响了识别准确度。

除了正常用户之外,善意爬虫也屡屡躺枪,善意的爬虫如搜索引擎爬虫、合作伙伴爬虫等,行为模式与恶意爬虫高度相似,不够智能的拦截算法将善意爬虫也一并拦下,会导致网站搜索排名下降,权重降低。

正常用户被“误伤”,这个问题有解吗?
要与越来越智能的爬虫对抗,关键点在于如何精准识别真实用户流量与爬虫流量。由于过滤规则导致的正常用户被误伤,固然是一件很不公平的事情,世上并没有绝对的公平,但技术的目的就是为了尽其所能,消除这些不公平的现象。

我们可以通过更智能的判定机制来尽量降低不公平现象。

在大数据的时代,通过数据分析与机器学习相结合应用于安全防护领域才能更有效地识别各种异常流量。网宿业务安全(Bot Guard)通过自身大数据的优势,将全网数据流量(正常、异常)作为样本输入到网宿云安全大数据分析平台,通过特定机器学习算法不断训练得到正反向流量识别模型,并应用于业务安全的防护架构中,精准识别阻断异常流量。

网宿科技再度获评“2018行业影响力品牌”

此外,网宿业务安全(Bot Guard)还通过信誉库、访问控制、指纹识别、布设陷阱、机器识别等技术,实时检测和分析网站流量,精准地识别真实用户流量及各类爬虫流量,并针对不同爬虫流量采用合理的管理策略,同时避免爬虫流量占用大量服务器资源,保障企业业务稳定运行,保持竞争优势。