大数据分析关键技术与服务创新黄哲学博士深圳大学特聘教授内容提纲数据分析与大数据云计算与大数据分析关键技术与服务创新123腾讯游戏与大数据分析•亿级在线用户、上百在线游戏•游戏平台系统记录每个用户在线玩游戏的详细数据,包括游戏、时间、动作、结果等,数据超TB级•分析需求:–用户行分类与预测,用户行为客户群划分,–用户挽留、用户奖励和级别提升QQ游戏是腾讯旗下自研的休闲游戏社区平台,官方数据显示,QQ游戏平台拥有百款以上的游戏品类,2亿量级活跃用户,最高同时在线人数超过800万。智能电网大数据•东莞工业的电力用户达两万多家•每十五分钟采集电压、电流、功率等数据•每月平均数据量达85GB用客户电行为模式大数据分析选取客户不同维度的数据进行客户分群日周月用电模式用户行业背景用户地理信息用户电力设备信息地区宏观经济数据通过对客户分群,获取用户不同的用电模式工作日双班制,三班制,四班制周末长短周轮休夜间用电高峰行业间用电模式比较不同地区不同行业用电模式比较节假日及用电模式趋势预测客户分群三班型两班型稳定型其他类型三班制用电行为聚类高强度加班模式低强度加班模式对数据的使用者来讲,如果数据集超出了使用者所拥有的信息处理和分析的能力,就给使用者带来了大数据问题什么是大数据大数据的3V特征Volume数据规模大Velocity数据变化数据快Variety数据属性复杂Value价值大数据的特点并不只是数据规模大大数据的价值(Value)美国医疗保健每年产值达3000亿美金每年生产率增长约0.7%制造业最多可节省50%的产品研发、组装成本最多可节约7%的营运资金美国零售业净利率增长可能高达60%+每年生产率增长0.5-1.0%欧洲公共部门管理每年2500亿欧元每年生产率增长约0.7%全球个人定位数据1000亿+的服务供应商收入为终端用户带来高达7000亿美的价值未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。大数据产业链金融传统应用领域新型应用领域互联网智慧城市电子商务现代物流制造零售通信智能电网大数据带来的挑战内容提纲数据分析与大数据云计算与大数据分析关键技术与服务创新123挑战性科学问题AccesstoDiverseHeterogeneousDistributedDataExpressionArrays(varioustissues)PersonalgenomicsX-rays,MRI,mamograms,etcClinicalRecordAnalysislabnotesHospitalevents....admission,surgery,recovery,discharge1.PatientInformation数据融合(fusion)数据集成(integration)挑战病人健康医疗数据没有有效的数据集成就不能进行有效的综合数据分析挑战性科学问题成千上万个属性超高维问题百万以上甚至超亿个记录1.混合数据类型2.缺省值/噪声3.相关性问题4.Unbalance5.Subspaceproperty6.Uninformativeness12nn-1n-2n-3n-4f1f2f3f4f5…大数据集的挑战(BigDataMatrix)云计算与大数据•云计算是一种新的大规模分布式计算模式–通过网络和资源虚拟技术,实现计算及存储资源集中管理,面向用户提供服务•云计算可以解决目前计算机使用的诸多问题,是计算技术发展的一个新的里程碑传统计算机的问题•使用成本高•资源分散•资源不足•资源浪费•高能耗•环境污染云计算的优点•成本低•易于普及•可扩展能力高•节能•环保云计算大数据处理的核心技术虚拟文件系统数据划分•GFS(Google)•HDFS(Hadoop)MapReduce编程模型算法编程•Map和Reduce两个基本操作•大规模分布计算•可扩展性运行时系统程序运行•负载平衡•任务调度•容错MapReduce编程模型文件划主节点节点节点节点节点节点用户编程文件文件文件文件文件输出输出文件划分Map运算Reduce运算结果输出程序写成Map和Reduce两步运算1.Map统计单个文本词频2.Reduce综合所有文本的词频(Map)(Reduce)MapReduce编程特点MRMRMRMRK-means算法Pipeline模式将对象分配给与其最相似的聚类Map过程Reduce过程MRMRMRMRMRMRMRMR输出聚类结果输入数据?????是否收敛?重新计算聚类中心点MapReduce大数据随机森林算法Layer宽度优先、大规模分层建树策略内容提纲数据分析与大数据云计算与大数据分析关键技术与服务创新123云计算大数据分析平台区域智能数据中心区域智能数据中心支持多种终端访问—以区域性智能数据中心及高速互联网为基础设施,—以互联网服务体系为架构,—以大数据存储、处理、挖掘和交互式可视化分析等关键技术为支撑,—通过多样化移动智能终端及移动互联网为用户提供数据存储、管理及分析服务。关键技术云计算引擎高性能海量数据挖掘算法库工作流引擎支撑海量数据处理、挖掘与分析运算提供海量复杂数据处理、分析与挖掘高可扩展算法数据处理分析流程图形化设计数据处理分析流程自动执行资源调度及优化OpenAPI提供数据挖掘平台与第三方应用系统的扩展接口支撑海量数据存储与管理云存储大数据分析平台云计算大数据分析平台110台服务器,840CPU核,550TB存储容量数据库:MySQL5.0商用版云存储:Hadoop、Casendral数据挖掘软件:Alphaminer、R平台规模软件环境平台功能大数据云存储与管理分布式并行数据挖掘任务执行可视化数据分析执行引擎大数据处理、融合与分析流程•超过35种数据库–MySQL,Oracle,SQLServer,DB2,SAP,etc•Text•XML•Excel•Access•Xbasefiles•LDAP•Geo-Data•…数据格式及访问•模块化数据转换引擎(无需编写代码)•多种的转换方法–Splitting–Partitioning–Merging–Joining–Duplicating–Mapping–Selecting–Calculating–…数据清洗、转换与集成操作医保数据处理工作流1型糖尿病性神经炎(原始记录)糖尿病性神经炎(ICD国际疾病分类标准)内分泌,营养和代谢疾病(ICD国际疾病分类标准)疾病匹配疾病分类疾病分类云计算大数据分析算法库基于MapReduce模型,实现数据挖掘算法分布式并行化。K-MeansK-ModesW-K-MeansEWKM聚类算法DecisionTreeRandomForestsLDA分类算法LogisticRegressionRandomForestRegression回归算法FP-Growth关联规则算法的测试性能达到TB级数据的处理能力。•K-Means算法性能–数据规模:1TB,1千万条数据*1万维–执行效率:初始10个聚类中心,一次迭代时间约30分钟•RandomForests算法性能–数据规模:110GB,1千万条数据*1千维–执行效率:建立20棵树约36分钟交互式可视化建模分析交互式可视化数据分析技术,交互式可视化随机森林分析系统,实现人机交互驱动的模型优化,提高建模效率与分类精度。随机森林模型图形化对象表示人机交互式操作实现模型优化功能指标人机交互,建模全过程可视、可控,提高建模效率与分类精度;创新性优于传统数据分析手段,创新海量复杂数据分析方法与工具;数据可视化、分析过程可视化、分析模型可视化VisForest大数据可视化在线数据分析•通过仪表盘图形化的KPI指标–支持全局的运营表现和局部细节的钻取分析–快速了解业务运营的各项指标–实施获取告警信息•支持第三方定制化的应用开发移动终端上的商务智能分析平台系统框架基于浏览器的BI分析平台基于智能移动终端的BI分析平台大数据分析与信息服务平台智能数据中心基于WEB的数据分析流程设计工具基于WEBD数据管理工具大数据分析信息服务产业大数据分析平台技术及产业化优势:降低企业应用成本,技术积累和专业化服务,培育新的大数据分析和信息服务产业。•孵化面向不同行业的专业咨询公司、大数据分析公司和信息服务公司。主办:TEG研发管理部腾讯大讲堂合作伙伴:深圳大学、腾讯公关部