神通商业智能汇报汇报人:黄瑞神通BI与企业数据分析3知识可视化数据仓库分析模型业务展现平面文件关系数据库应用系统数据集市仪表盘多维报表数据挖掘模型OLAP模型基础数据数据仓库标准报表zzK-Miner分类、预测、聚类、关联K-Cuber切片切块、上钻下钻、同比环比、指标预警K-Front报表的设计、生成、展现、打印K-Fusion抽取、转换、加载神通BIK-Miner分类、预测、聚类、关联K-Cuber切片切块、上钻下钻、同比环比、指标预警K-Front报表的设计、生成、展现、打印K-Fusion抽取、转换、加载神通BI神通K-Fusion5•可视化流程定义•50多种数据源,支持关系数据库、文本数据、分布式文件系统等•30多种数据转换节点•全表比对、时间戳、自增字段、数据库日志、触发器等增量抽取策略•分布式部署•支持用户自定义节点•执行过程可视化监控•ETL元数据管理功能神通K-Fusion:面向多种数据源抽取和加载通用型数据库平面文件定长文件数据仓库数据源K-Fusion抽取、转换数据仓库神通K-Fusion:ETL流程Demo7神通K-Fusion:ETL流程Demo8查找表数据:修改前:修改后:条件:性别ISNOTNULL神通K-Fusion:增量ETL91北京30002上海40001北京350023南京6500全表比对时间戳序列触发器DB日志分析数据库(T0)数据仓库1北京3000初始2010-5-300:00:00.0002上海4000初始2010-5-300:00:00.0001北京3200更新2010-5-817:50:23.0002上海4000删除2010-5-817:50:23.0003南京6500新增2010-5-817:50:32.000数据库(T1)神通K-Fusion:所见即所得的流程设计10顺序分支循环(逻辑)神通K-Fusion:ETL流程的执行(调度)11神通K-Fusion:ETL流程的执行(监控)12神通K-Fusion:可扩展的ETL能力(节点层面)13神通K-Fusion:丰富的性能提升机制14性能提升机制数据库批量加载(OCI等原生驱动加载)节点间并行处理数据分片11’1’’12341324K-Miner分类、预测、聚类、关联K-Cuber切片切块、上钻下钻、同比环比、指标预警K-Front报表的设计、生成、展现、打印K-Fusion抽取、转换、加载神通BI神通K-Cuber16•快速建模工具和专家建模工具•钻取、行列互转、预警等多维操作•自动聚合技术•分块缓存策略•多维元数据管理•数据权限管理分析终端聚合数据缓存聚合服务分析引擎数据库神通K-Cuber:多维建模工具17•快速建模工具QuickDesigner可实现5步建模;•专家建模工具ExpertDesigner可满足高级用户建立复杂OLAP模型;•支持星型和雪花型模型。将ER关系模型转为OLAP模型多维元数据管理神通K-Cuber:立方体和多维分析18时间1季度2季度3季度品类家电食品衣物时间1季度2季度3季度品类家电食品衣物时间1季度2季度3季度品类家电食品衣物6月水果5月4月饮料肉类神通K-Cuber:数据分析流程•应用场景:某企业订单分析19序号维度1品类2价格带3地区4时间5职业6年龄7年收入8性别9学历……序号度量1总订单数量2有效订单数量3订单有效率4有效订单金额5净订单金额6净订单数量7换货单金额8换货单数量9拒收订单金额……神通K-Cuber:选取维度20神通K-Cuber:选取指标21神通K-Cuber:有效性分析22指标总订单数量有效订单数量订单有效率地区时间所有地区所有时间品类所有品类维度神通K-Cuber:多维分析(品类)23地区时间所有时间品类总订单数量有效订单数量订单有效率专案商品文化休闲流行用品所有地区神通K-Cuber:缩小分析范围24地区时间所有时间品类总订单数量有效订单数量订单有效率所有地区专案商品神通K-Cuber:多角度细化分析25总订单数量有效订单数量订单有效率总订单数量有效订单数量订单有效率总订单数量有效订单数量订单有效率地区时间所有时间品类广东海南吉林专案商品神通K-Cuber:选择分析数据范围26神通K-Cuber:缩小数据范围27神通K-Cuber:图表分析(省级)28神通K-Cuber:图形细化分析粒度29神通K-Cuber:图表分析(市级)30神通K-Cuber:月环比分析312010年4月和5月环比总订单金额环比增长率神通K-Cuber:日同比分析322009年2月8日和3月8日同比总订单金额的同比增长率神通K-Cuber:原子数据列表33神通K-Cuber:图形分析34钻取贵州省,并选择毕节地区钻取厨房用品神通K-Cuber:图形分析35钻取贵州省,并选择毕节地区钻取厨房用品K-Miner分类、预测、聚类、关联K-Cuber切片切块、上钻下钻、同比环比、指标预警K-Front报表的设计、生成、展现、打印K-Fusion抽取、转换、加载神通BI神通K-Miner37•40种算法•MPP+SMP并行计算架构•算法性能高效•灵活的任务调度•模型生命周期管理•B/S架构•挖掘元数据管理神通K-Miner:并行计算架构(1)38全节点采用MPP架构,实现多任务的并行和部分算法单任务粗粒度并行;单节点采用SMP架构,实现所有算法的细粒度并行,并确保内存的节约。K-Miner为唯一一款所有算法实现并行的数据挖掘软件。39基于E-As(调度引擎-挖掘代理)的分布式挖掘架构Master-Slaver(s)算子模式的并行挖掘算法节点内并行和跨节点并行相结合基于数据分布的负载均衡数据就近挖掘策略对HDFS、神通数据库集群等数据源的支持及扩展神通K-Miner:并行计算架构(2)K-Miner分布式挖掘拓扑图PCPC网络挖掘调度引擎挖掘代理神通集群data节点网络挖掘代理神通集群data节点挖掘代理神通集群data节点挖掘Web应用服务器PCPC挖掘代理神通集群data节点神通集群Master获取数据分布数据挖掘属性筛选分类预测回归预测聚类分析关联分析时间序列属性筛选属性重要性打分基于信息增益的属性打分主成分分析决策树分类回归树神经网络分类支撑向量机分类分类组合模型多元线性回归神经网络回归支撑向量机回归回归组合模型K均值聚类分布估计聚类基于K均值的层次聚类购物篮分析属性关联分析序列模式分析ARX时间序列ARMA时间序列基于卡方检验的属性筛选朴素贝叶斯贝叶斯网络逻辑回归广义线性回归两阶段聚类统计分析描述性统计数据探测异常检测层次聚类方差分析归纳分析列联表相关分析分布估计函数拟合因子分析单因子方差分析双因子方差分析样本层次聚类属性层次聚类K-sigma异常检测线箱图异常检测离散化K-Miner算法神通K-Miner:算法列表共计40个05001,0001,5002,0002,5003,0003,500数据记录数(万条)测试环境:8G内存属性个数55属性个数15神通K-Miner:海量数据处理能力神通K-Miner:高效的执行速度44大部分算法执行速度远快于国外相同算法45分类算法准确率对比,准确率越高越好。回归算法准确率对比,相关系数越高越好。算法准确度和SPSSModeler相当,有的K-Miner略好,有的Modeler略好神通K-Miner:和领袖厂商相当的算法准确度46神通K-Miner:灵活的任务监管和调度策略47神通K-Miner:模型快速发布、预警及更新机制48元数据管理主流数据挖掘工具对比项大类对比项神通K-Miner5.0SASEM5.3(SAS9.2的)SPSSModeler14算法算法数量27+13=401429执行速度高中中预测精度高高高其他功能数据源主流数据库、TXT、CSV、Excel等主流数据库、TXT、CSV、Excel等主流数据库、TXT、CSV、Excel等任务调度支持,且强大××模型管理模型库×CRISP-DM扩展性并行计算√××架构B/SC/SC/S调用接口API、WebServiceAPIAPI第三方系统整合√××易用性可视化好中好建模方式向导式工作流工作流建模难度容易略复杂容易帮助文档可读性较好差好服务与价格价格中高,租赁模式高,每增加一个用户还需购买一个客户端原厂技术服务√××定制开发支持√××对比测试-测试环境CPU:英特尔E74502.4GHz6核心*4内存:64G节点数:1硬件环境操作系统环境:Windows2003Server64bit集群并行数据库环境:神通xCluster3.5*1神通KSTORE3.5*2实例数据挖掘对比产品:神通K-Miner5.0IBM旗下SPSSModeler15软件环境分类测试:电信客户流失(103万行)税务稽查选案(20万行)中彩客户分析(678万行)UCI运动检测(230万行)回归测试:增值税预测(72万行)聚类测试:中彩客户分群(220万行)数据环境对比测试-测试结果151测试算法分类回归树测试数据中彩在线客户行为变更分析数据电信小灵通客户流失分析数据税务偷漏税分析数据物理活动检测数据用例编号6.66.76.96.106.116.126.136.14对比项ModelerK-Miner串行ModelerK-Miner串行ModelerK-Miner8线程ModelerK-Miner8线程速度数据加载时间(s)340234.48467.489.21816634.62516547.875建模总时间(s)2442.782415.6481568.751385.6255512.73304.3916146.53447.25总时间(s)2782.782650.1321636.151476.5945678.73340.8446311.53497.485速度倍数1.051.116.712.7精度分类准确率95.38%95.41%95.00%95.09%100%100%98.27%98.74%测试算法K均值测试数据中彩在线客户分群数据用例编号6.16.2对比项Modeler串行K-Miner串行数据加载时间(s)87.752.157建模总时间(s)482.28172.25总时间(s)569.98225.797对比测试-测试结果252测试算法线性回归测试数据税务增值税预测数据用例编号6.156.16对比项ModelerK-Miner串行速度数据加载时间(s)2430.296建模总时间(s)97.7214.031总时间(s)121.7245.766速度倍数2.66精度最大误差29171.31428812.9129绝对平均误差1603.0221611.153945标准差3556.6493540.277038线性相关0.9990.99886.96倍对比测试-SMP并行测试53测试算法K均值测试数据中彩在线客户分群数据用例编号6.26.3对比项K-Miner串行K-Miner8线程SMP相对加速比绝对加速比数据加载时间(s)52.15712.1090.5384115124.307292097建模总时间(s)172.2531.610.6811531165.449224929总时间(s)225.79745.1720.6248256664.998605331K-Miner分类、预测、聚类、关联K-Cuber切片切块、上钻下钻、同比环比、指标预警K-Front报表的设计、生成、展现、打印K-Fusion抽取、转换、加载神通BI神通K-Front55•可视化报表设计器•支持中国式报表和各种复杂报表•支持30多种图形和地图•支持多维分析模型和数据挖掘模型•支持领导仪表盘制作神通K-Front:主要功能所见即所得的设计风格,拖拽式报表布局加快开发进度支持生成Html、Word、Excel、PPT、PDF等格式支持多样的可视化报表元素,包括网格、表、图片、图表和交叉表等支持设计各种复杂型报表内置丰富的数据处理函数,满足制作报表的需求支持关系型数据、多维数据、数据挖掘模型等数据源支持样式模版、资