基于大数据分析的网络攻击检测2013年10月24日土人谭晓生目录CONTENTS010203网络安全挑战大数据基础设施实践目录基于大数据的网络攻击检测实践频频发生的安全事件•2013年10月,慧达驿站软件漏洞导致连锁酒店数据库拖库事件:2000万条开房记录泄露•2013年7月,JavaStruts2报高危漏洞,传某著名电商被拖库,超过5亿用户信息被盗•2013年3月20日,韩国3.2万台终端MBR被删除,3家电视台、2家银行系统瘫痪•2012年7月,雅虎服务器被黑45.3万份用户信息遭泄露•2012年6月,LinkedIn证实部分用户密码遭泄露需重置密码•2012年4月,VMware确认源代码被窃•2012年4月,DNSChanger肆虐全球400万台电脑被感染•2012年1月,赛门铁克公告证实两款企业级产品源代码被盗•2012年1月,美国电子商务网站Zappos遭黑2400万用户信息被窃•2011年12月,CSDN用户信息泄漏,多个网站遭遇类似情况•2011年9月,日本三菱旗下军工企业遭黑客入侵•2011年4月,索尼PSN平台7700万用户数据泄漏•2010年,伊朗核电站遭受震网病毒攻击,伊朗核计划被延迟3年重要假设系统有未发现的漏洞系统有已发现的漏洞未修补系统已经被渗透员工不可靠如何发现有漏洞被利用/攻击行为检测?找出哪些漏洞还没有修补,进行修补如何发现系统已经被渗透了?清理如何重现攻击过程?如何溯源?如何发现员工的异常行为?如何检测/拦截来自内网的攻击?目录CONTENTS010203网络安全挑战大数据基础设施实践目录基于大数据的网络攻击检测实践一些数字•100GB•50TB•10S•4000亿Whatwillbetalked?•Web异常行为分类•一丁点http•web访问数字化•异常行为的识别Web异常行为分类•连接型攻击,比如扫描,cc攻击等•机器抓取,爬虫bot等•Web攻击常见的web攻击•XSS攻击•SQL注入攻击•文件包含攻击•Webshell访问•敏感信息探测一丁点http•Http首部:–方法–协议–域名–请求URI–状态码–其他一丁点http•方法:–HEAD–PUT–GET–POST–TRACE–…一丁点http•状态码:–1XX信息–2XX成功–3XX重定向–4XX客户端错误–5XX服务器错误URI/read.php?page=1&tid=232&action=top&pro=0a212Path分隔符参数名参数值Web日志219.73.81.109--[06/Jul/2013:00:00:04+0800]GET/favicon.icoHTTP/1.12001537-Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;.NETCLR2.0.50727;.NETCLR3.0.4506.2152;.NETCLR3.5.30729;360SE)”211.3.2.3IP--[time]methoduriprotrolretcodelenrefuser-agentdomainx-forward-ip上网行为记录Web访问数字化•访问源ip,domain,uri•合并访问到session•计算session里的访问特征1.访问次数2.访问深度3.访问宽度4.Agent个数5.Get文件访问比例6.静态文件访问比7.非200请求比访问次数•同一个session内对相同域名的请求次数访问深度•URIPATH里“/”的数量•大部分访问深度都不会很深访问宽度URI:•/a/b•/a/cabc宽度=2静态文件访问比•Jpg•js•css•gif•bmp•ico•Tif•…etc非200访问请求比•大部分网站请求返回应该都是正常的•非200访问说明存在问题Scan扫描行为深度宽度静态文件比非2XX爬虫行为深度宽度静态文件比非2XX攻击行为URI:/pf/go.php?a=/go.php/component/1&elements[tips]=%3C%21--%20php%20--%3E%3C%21--%20print(md5(base64_decode(MzYwd2Vic2Nhbg)))%3B%20--%3E%3C%21--%20%2Fphp%20--%3E•不同域名下出现同一URI次数•相同域名下不同URI出现的相同value次数•相同域名下相同URI不同参数下出现相同值次数攻击特征识别攻击模式的识别访问行为分析网络流查询机器识别异常网络行为机器识别异常网络行为攻击位置与频度的展示机器识别异常网络行为机器分类学习•海量数据处理•分布式并行计算•半监督学习,SVM,决策树,神经网络目录CONTENTS010203网络安全挑战大数据基础设施实践目录基于大数据的网络攻击检测实践万兆snort入侵监测系统•万兆snort入侵监测系统–万兆网络包捕–大数据存储与计算–旁路阻断•实现效果–万兆网络下入侵监测–万兆网络下全网旁路阻断–多节点数据云存储与计算万兆snort万兆snort入侵监测系统•旁路web实时监测系统–万兆网络包捕与tcp重组–大数据存储与计算–高性能分布式实时计算–机器学习与规则提取–威胁模型的建立•实现效果–旁路waf功能,对web攻击识别与旁路阻断–自动发现与提取攻击特征,识别一些apt行为–分布式计算存储方案,满足系统高可用性与计算扩展性–基于温度变化的威胁模型旁路web实时监测系统平台•360主要大数据存储和计算平台1分布式文件系统(HDFS)存储计算分布式K/V系统(Cassandra)M/R计算系统(MR)实时计算系统(Storm)科学计算系统(Euler)分布式表格系统(HBase)数据存储平台•分布式文件系统(HDFS)–扩展灵活,并发吞吐高–存储离线大文件–单个集群1500台–总规模超过3000台数据存储平台•分布式表格系统(HBase)–列灵活增减,集群扩展容易–存储离线结构化数据–单个集群500台数据存储平台•分布式K/V系统(Cassandra)–无中心,服务稳定–在线存储业务–单个集群150台–总规模超过3000台–跨IDC备份修复…数据计算平台•M/R平台数据计算平台•科学平台(Euler)MPI通信框架分布式向量作业管理&任务调度分类分布式矩阵计算框架聚类回归…作业层算法层框架层通信层PageRank广告排序…HDFSCassandra…业务欧拉计算平台数据图片消重数据计算平台•Euler平台算法库•聚类–k-means–凝聚层次聚类–minhash–Disjoint-Set–QueryClustering•分类–随机森林–GBDT–LLGC–朴素贝叶斯•主题模型–plsa–Lda•协同过滤–User-based–Item-based•回归–逻辑回归•机器翻译–SMT–EMBT•其它–PageRank:网页排序–ALS:矩阵分解数据计算平台•Euler平台公司应用业务算法作用网页搜索PageRank计算网页重要程度图片搜索Minhash、DisjointSet聚类图片去重,计算图片排序权重广告相关性主题计算PLSA计算广告所属的主题广告点击率预估(ctr预估)liblinear、逻辑回归广告排序导航猜你喜欢PLSA计算推荐结果导航垃圾网页识别逻辑回归生成识别规则问答term权重计算GBDT计算term权重问答问题匹配SMT根据用户输入,匹配题库中的问题白名单以白加白矩阵乘法根据已有的白文件,计算出新白文件白名单规则匹配向量乘矩阵发现新的加白规则开机耗时分析K-means找出开机耗时慢的阶段网络攻击检测K-means生成识别规则数据计算平台•实时计算平台–输入:RPC,MQ……–输出:同步返回,写入存储……MQRPC存储规模•存储规模–存储服务器超过9,000台,硬盘超过100,000块–存储数据量超过260PB–Hadoop集群文件个数达4-5亿–Cassandra集群文件数超过100亿•计算规模–计算服务器超过5633台,CPU核数超过40,000–每天计算任务数超过20,000-30,000个,参与计算的数据量超过1.5PB安全上网,从360开始