投稿邮箱:wdwxtg@qq.com 论文发表QQ:329612706 微信:lianpu13
当前位置首页资讯 文化 企业文化 教育培训
  • 正文内容

反爬虫在教育培训视频版权领域的策略探析

阅读:1169 次 作者: 来源:保利威云服务 发布日期:2019-04-28 09:42:46
基本介绍:一起问道文艺网分享的教育培训资讯。

  闫定国,极验交互安全实验室负责人。曾为平安、华为、新东方、万达集团等多家创新公司提供安全防护服务,长期跟进黑产研究,有丰富的反作弊、反爬虫对抗经验。

  闫定国根据恶意机器流量目前在国内的现状,在视频领域反爬虫的对抗策略两个方面进行了分享。他提到极验是通过构建完整的防御架构,从设备环境检测、海量风险库、网络风险探测、人工智能模型4个方面对抗黑产的攻击。

  极验交互安全实验室的主要工作有三个部分:1、研究报告;2、黑灰产调研;3、行业解决方案。主要是根据前沿黑灰产主流的技术,包括软件层面还有硬件层面的技术,向不同行业制定这针对性的解决方案。

  国内机器流量占比

  从2016年到2018年3年国内机器流量的占比情况看,机器流量占比逐年递增,目前整个互联网上的流量将近50%的流量全部都是机器流量。

  其中,恶意机器流量占到了20%,大多数都是爬虫,或者一些攻击者产生的流量。目前产生的所有互联网流量中,将近1/5的流量全是恶意的流量,在破坏整个互联网的生态。

  机器流量特性

  1、持续性

  一是,某些企业的业务逻辑决定了机器流量的持续性;二是,许多无人管理的爬虫长时间对互联网资源产生消耗。极验检测出来的很多爬虫将近有10年时间无人管理,也许就像大学生做的毕业设计,毕业后便无人管理了。

  2、普遍性

  随着这几年资产不断从线下转到线上,加之大数据、深度学习的兴起,非常多的大数据公司出现,稍微有些价值的数据都会被爬去做数据分析。大数据公司爬取的数据越来越多,逐渐滋生了很多数据流量。

  3、行业性

  机器流量的差异与行业的不同有关。从整个恶意流量在全国的行业的分布看,票务网站最多,占到23.6%,其次是政府公共服务占到15.8%,视频和直播排第5占到了7.6%。

  恶意机器流量IP来源

  现在整个黑产攻击者已经产业化、专业化。

  极验监测到的所有恶意IP流量,将近3/4都是来自云服务商,占75.4%。黑产攻击者在阿里云、腾讯云上租赁服务来进行爬虫,都是分布式的爬虫,效率非常高。其中,云服务商具体占比,阿里云占了一半多54%,剩下的分布在腾讯云(23%)、电信云(4%)和其他云服务商(11%)中。

  爬虫主要路径搜索视频文件,定位视频源URL,最后只要模拟请求进行批量的下载,就完成了整个从网上自动化下载批量视频的流程。

  整体防御架构

  通过白名单和黑名单机制。用户发出请求后,白名单用户可以继续访问,黑名单用户被封禁。

  而对于其他未知用户,通过四层智能拦截模型,对用户作出判断,请求是否合法,访问是否有风险。判断为无风险用户可以继续访问。对于判断为有风险的用户会根据不同情况作出相应的四种决策进行应对。

  四层智能拦截模型

  1、设备环境检测

  基于多维度终端环境信息,区分真实用户与机器流量。针对访问环境,综合评定风险。JS加密处理,安全性更高。区分恶意脚本、模拟器、无头浏览器。

  2、海量风险库

  将网页访问数据与风险库海量数据进行智能分析比对。有IP风险库、设备指纹库。通过大量的积累,自身积累或者向第三方购买,如果拥有百万或者千万数量级的黑产常用的IP库,攻击者一旦访问就可以发现。

  3、网络风险探测

  对HTTP协议特征进行持续的探测判断。从传输层检测风险,利用机器学习分类风险协议和正常协议,增加恶意爬虫工作成本。

  4、人工智能模型

  利用CNN进行攻击模式识别,对业务事件中产生的轨迹等行为数据建模分析。流量的全站持续学习,发现细微之处的潜在风险。用户浏览轨迹检测,智能区分人与爬虫。

  目前爬虫和反爬虫的对抗十分激烈,黑产也很专业,有一条完整的产业链。之所以用四层拦截模型、而且每一层中有很多规则,目的在于尽可能地将这个链条拉长,如此,总有黑产发现不了的点,黑产总会露出马脚,我们可以进行应对。与黑产的对抗是一个持续的过程,需要多维度结合,因为无法从技术上单点突破、一劳永逸。

  四种应对决策

  1、监控模式

  暂时不对风险用户做风控,而是监控,将其打标记。待需要处理的时候可以直接封禁。

  2、验证码模式

  检测到风险后,通过弹出验证码进行阻隔,因为机器无法通过验证码。

  3、封禁模式

  将风险用户的账户、IP直接封禁,不允许其访问网站。

  4、假数据模式

  不将风险用户直接封禁,而是制造一些假数据让其爬走。这种模式是对攻击者最有力的反击,攻击者的分类成本会很大。

  最后闫定国表示“世界上不存在绝对的安全,所有的对抗本质上都是成本的对抗”。线上根本不存在绝对的安全,需要不断地博弈对抗。


标签:教育培训
注:本网发表的所有内容,均为原作者的观点。凡本网转载的文章、图片、音频、视频等文件资料,版权归版权所有人所有。