《YY直播应用大数据决胜安全对抗的实践》大数据安全对抗应用背景大数据分析在DDOS对抗中的应用大数据分析在机器人外挂识别中的应用1235大数据让YY安全防御体系从“温饱”过渡到“小康”欢聚时代(YY)直播业务--娱乐&游戏&教育DDOS攻击渗透入侵外挂业务破坏逆向破解盗号盗Y币面临的安全威胁对抗技术演进攻击、入侵、渗透等显著特征模糊识别精TEXT别ADDCONTENTS确识从“精确的模式特征”向“模糊的模式特征”演进通过大数据分析、数据挖掘、实时计算等分析模糊特征云防DDOS业务风控系统WAFKafka&Storm&Hadoop大数据(实时&离线)计算平台(K-Means、DecisionTree、Apriori等)安全系统的log/message上报外挂对抗系统主机入侵检测账号安全系统计算结果在安全系统中应用业务系统(登陆、礼物、好友、搜索等)登陆、支付等协议数据上报计算分析结果:(IP画像库、设备画像库等)基线历史数据:bps/pps/qps/rt等基线数据大数据计算在平台框架大数据安全对抗应用背景大数据分析在DDOS对抗中的应用大数据分析在机器人外挂识别中的应用12345基于src_ip频率模式基于报文特征频率模式src_ip的散列度&归属地报文的重复度攻击报文聚类挖掘机器学习报文特征IP画像库大数据流量模型机器学习防御DDOS技术演进畸形报文特征非法填充报文特征黑名单攻击报文特征白名单指纹特征Syncookie等人机挑战(1)机器学习报文提取特征;(2)大数据分析疑似的攻击源ip;(3)基于大数据IP进行“柔性可活”人机挑战和对抗;(4)基于历史大数据学习单ip响应延时数学分布;在DDOS防御中的应用场景(1)报文特征根据经验输入程序;(2)根据当前请求频率分析攻击源;(3)根据当前的请求src_ip对抗;(4)根据经验预先“拍”阈值;场景一:大数据分析在报文特征机器学习和攻击源IP的识别云防DDOS检测模块云防DDOS清洗模块服务器A服务器B服务器CC的攻击流量清洗后C的流量A的正常流量B的正常流量镜像或分光A,B,C所有流量核心交换机LVS+Nginx集群(WAF)C的流量被牵引到清洗设备正常用户攻击者大数据中心WAF处理Http协议CC攻击镜像流量攻击检测引擎流量回注交换机转发流量到业务服务器发现攻击BGP宣告路由流量清洗引擎攻击?没有攻击大数据分析平台云防DDOS在清洗比例低于阈值自动抓包解析报文并提取关键信息挖掘至长度为4字节的特征,发现特征:74554202挖掘完毕,最长长度为4字节,共15个特征,目前以文件方式记录云防DDOS实现基于DPDK自动抓包分析报文特征正文第46字节第45字节……Vx,其中x指代数据包正文部分第x个字节恶意特征概率发现特征由于算法决定,特征串需要经过序号排列最终符合阅读习惯,后续将根据调用特征的接口所需规范进行翻译实际所指代的含义V40V41V42V43V44V45V46V47V48V49V5064**94****3267**2616e7645494****3267**2616**发现可疑IP写文件记录可疑IP恶意显著性抽查结果与恶意IP库中已收录IP相互印证云防DDOS在攻击报文中识别恶意IP分析到第10个pcap文件将前述的Apriori算法改造,可用于大规模发现DDOS攻击中的恶意IP1.2.3.4.总包量40万,源地址数量39万,散列度极高99%的IP只发送一个数据包源地址表面接近,实则地理分布分散,海外地址比例过高,分别来源泰国,日本,韩国,澳大利亚,广州,福州等地(目标服务器位于辽宁沈阳)不同位置的服务器访问相同的目标服务器,TTL高度集中在同一水平(238)时间戳源地址目标地址包长TTL源端口目的端口伪造源地址攻击的样本度量说明定义正常访问真实地址攻击虚假地址攻击时间窗口内源地址散列程度该度量随正常访问真实地址攻击虚假地址攻击显著提升单位时间窗口内,互异的IP数量除以总的包数量小于10%稍高,约30%~40%约90%相继同源数据包比例虚假地址攻击中该比例较正常访问或真实地址攻击大幅降低时间轴上相邻两个访问数据包具有同源的数量除以总体相邻数目高于10%约10%上下小于5%时间窗口内单包传输比例虚假IP地址几乎不会重复使用,绝大部分虚假地址只会发送一个数据包统计各源IP发包数量,计算发送单包IP数量的占比90%以上大于190%以上大于190%以上是单包时间窗口内TTL均值及标准差虚假IP数据包通常设置TTL为255,且虚假IP占绝大多数下,TTL均值趋于更大计算单位时间窗口内数据包TTL的均值和方差均值:约50多至60多标准差:小于30均值:约50多至110多标准差:大于30均值:大于200标准差:小于30IP与指定相邻IP间组内距离*真实地址倾向频繁出现,且通常来自相近地理位置,虚假地址则倾向随机,分布不存在规律某一源地址,计算它与其后N个地址的平均距离普遍小于50100上下,通常小于200普遍超过300正常访问或真实地址攻击中:1.2.同一IP总是频繁重复出现,相邻距离较多出现0的情况由于负载均衡和网络加速技术,目标服务器总是服务于相对固定区域的用户而虚假地址攻击中:1.2.几乎不存在相邻距离为0的情况(虚假IP不会重复出现)访问目标机器的IP呈现随机化K相邻IP组内距离概念正常样本1.2.3.4.5.源地址散列程度:0.028相继同源IP比例:46%发包规模:90%以上29个包以上TTL均值62,标准差1310个相邻IP间距:79真实地址攻击样本1.2.3.4.5.源地址散列程度:0.101相继同源IP比例:8.5%发包规模:90%以上22个包以上TTL均值51,标准差1410个相邻IP间距:105虚假地址攻击样本1.2.3.4.5.源地址散列程度:0.931相继同源IP比例:3.0%发包规模:99%以上单包TTL均值230,标准差3410个相邻IP间距:455IP相邻间IP距离IP相邻间IP距离K相邻IP组内距离(K=10)真实地址样本虚假地址样本•100%国内地址•超过50%有在恶意IP库收录•同外挂和网络代理维度匹配•(确认为真实地址)•约6%IP与恶意IP库记录重合•绝大部分海外地址大数据IP画像在CC攻击对抗中的应用场景检测算法:(1)单src_ip的连接数超过阈值(举例:200QPS);(2)后端业务服务器(tomcat)响应延时超时比例超过阈值(举例:50%);(3)后端业务服务器(tomcat)响应延时延迟比例阈值(举例:8s以上30%);防御算法:(1)人机挑战(anticookie-js);(2)根据当前连接数,封src_iptopn的http请求;应用大数据:(1)计算所有后端服务器(tomcat)响应nginx集群的响应的延时数学分布;(2)计算分析历史单src_ip的连接数数学分布数据;(3)根据当前的连接数topn同时结合IP画像库大数据,精确度更高;云防DDOS外挂对抗WAF防刷系统IP画像数据分析移动安全加固反广告过滤账号安全系统秩序违规反向探测扫描IP画像库(1)探测开放代理端口(2)探测XX云主机(3)探测域名解析IP(4)探测IP归属地(5)探测运行路由服务IP画像服务接口层提供IP画像调用接口,返回IP恶意定级、命中维度IP画像库大数据分析框架图大数据安全对抗应用背景大数据分析在DDOS对抗中的应用大数据分析在机器人外挂识别中的应用12345正常用户&行为恶意用户&行为攻击行为、入侵行为、渗透扫描行为、外挂机器人用户等恶意特征明显;正常用户&行为特征明显;大数据分析Storm/Hadoop大数据分析在用户行为识别的应用设备画像设备硬件信息设备环境信息IP画像网络信息黑产IP历史地域信息用户画像行为模式恶意历史信息登陆信息特征通讯协议特征进程埋点特征技术行为特征技术KafkaStormHadoop数据挖掘分析机器人外挂对抗系统机器人用户大数据识别框架设备运行信息对抗策略下发登陆服务对抗策略下发XXXX服务对抗策略下发频道服务已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。换成反外挂领域语言理解:已知外挂(非外挂)中uid的各特征组合的百分比,根据朴素贝叶斯定理,可求得当出现指定特征组合时,该特征视为外挂(非外挂)的概率分析1Confidence=0.5为例对这些序列计算密度函数正态分布指数分布分析2左图是将不同的Confidence得到的序列的分布函数集中展现。横轴是单个IP多开UID数量,纵轴是多开数量占总体数量的百分比。如图中的黑圈,表示Confidence为0的情况下,一个IP登录一个UID的情况占比超过90%。对应的红圈位置,表明Confidence为0.2时,一个IP登录一个UID的情况占比降低,只有80%多。如果Confidence0.5时,单个IP同时登录20个uid只占60%。推论:假设单个IP多开UID数目是外挂非常重要的特征,而Confidence=0.4属外挂的可能性非常高,则只有约10%的样本会被100这个阈值触发找到(如前所述,结论无法推断全体,只能限定该批样本)